論文の概要: TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
- arxiv url: http://arxiv.org/abs/2402.19467v4
- Date: Thu, 10 Oct 2024 15:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:30:00.368991
- Title: TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
- Title(参考訳): TV-TREES:ニューロシンボリックビデオ推論のためのマルチモーダルエンターメントツリー
- Authors: Kate Sanders, Nathaniel Weir, Benjamin Van Durme,
- Abstract要約: TV-TREESは、最初のマルチモーダル・エンターメント・ツリー・ジェネレータである。
単純なテキストとビデオの証拠と、質問と回答のペアを証明する高レベルな結論の間の関係関係のツリーを検索する。
本手法は,TVQAベンチマークにおいて,全クリップ上での解釈可能な,最先端のゼロショット性能を示す。
- 参考スコア(独自算出の注目度): 32.502043767915175
- License:
- Abstract: It is challenging for models to understand complex, multimodal content such as television clips, and this is in part because video-language models often rely on single-modality reasoning and lack interpretability. To combat these issues we propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by searching for trees of entailment relationships between simple text-video evidence and higher-level conclusions that prove question-answer pairs. We also introduce the task of multimodal entailment tree generation to evaluate reasoning quality. Our method's performance on the challenging TVQA benchmark demonstrates interpretable, state-of-the-art zero-shot performance on full clips, illustrating that multimodal entailment tree generation can be a best-of-both-worlds alternative to black-box systems.
- Abstract(参考訳): モデルはテレビクリップのような複雑なマルチモーダルコンテンツを理解することは困難であり、これはビデオ言語モデルがしばしば単一モーダル推論に依存し、解釈可能性に欠けるためである。
これらの問題に対処するため、我々は最初のマルチモーダル・エンターメント・ツリー・ジェネレータであるTV-TREESを提案する。
TV-TREESは、単純なテキストビデオ証拠と質問対を証明する高レベルな結論の間の関係関係のツリーを探索することで、解釈可能な共同モダリティ推論を促進するビデオ理解のアプローチとして機能する。
また、推論品質を評価するため、マルチモーダル・エンテーメント・ツリー生成の課題についても紹介する。
本手法は,難易度の高いTVQAベンチマークにおいて,マルチモーダル・エンターメント・ツリー生成がブラックボックス・システムに代わるベスト・オブ・ボス・ワールドとなり得ることを示す。
関連論文リスト
- HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
ビデオデータの冗長性が高いため、ビデオの長文理解は難しい課題となっている。
我々は,クエリ適応的かつ階層的なビデオ表現を構築する,トレーニングフリーのフレームワークであるVideoTreeを提案する。
実験の結果,本フレームワークは従来の手法と比較して,推論精度と効率性を両立していることがわかった。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Hypotheses Tree Building for One-Shot Temporal Sentence Localization [53.82714065005299]
ワンショット時間文のローカライゼーション(ワンショットTSL)は、1つの注釈付きフレームだけでビデオ全体のクエリ情報を取得することを学習する。
我々はMHST(Multiple hypotheses Segment Tree)と呼ばれるワンショットTSLのための有効で斬新な木構造ベースラインを提案する。
MHSTは、不十分なアノテーションの下で、クエリ対応の識別フレーム情報をキャプチャする。
論文 参考訳(メタデータ) (2023-01-05T01:50:43Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。