論文の概要: TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
- arxiv url: http://arxiv.org/abs/2402.19467v1
- Date: Thu, 29 Feb 2024 18:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:14:29.073526
- Title: TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
- Title(参考訳): TV-TREES:ニューロシンボリックビデオ推論のためのマルチモーダルエンターメントツリー
- Authors: Kate Sanders, Nathaniel Weir, Benjamin Van Durme
- Abstract要約: 我々は,最初のマルチモーダル・エンターメント・ツリー・ジェネレータであるTV-TREESを提案する。
TV-TREESは、解釈可能な共同モダリティ推論を促進するビデオ理解のアプローチとして機能する。
そこで我々は,このような手法の推論品質を評価するために,マルチモーダル・エンテーメント・ツリー生成の課題を導入する。
- 参考スコア(独自算出の注目度): 35.506147885543136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is challenging to perform question-answering over complex, multimodal
content such as television clips. This is in part because current
video-language models rely on single-modality reasoning, have lowered
performance on long inputs, and lack interpetability. We propose TV-TREES, the
first multimodal entailment tree generator. TV-TREES serves as an approach to
video understanding that promotes interpretable joint-modality reasoning by
producing trees of entailment relationships between simple premises directly
entailed by the videos and higher-level conclusions. We then introduce the task
of multimodal entailment tree generation to evaluate the reasoning quality of
such methods. Our method's experimental results on the challenging TVQA dataset
demonstrate intepretable, state-of-the-art zero-shot performance on full video
clips, illustrating a best of both worlds contrast to black-box methods.
- Abstract(参考訳): テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行うことは困難である。
これは、現在のビデオ言語モデルは単一のモダリティ推論に依存し、長い入力のパフォーマンスを低下させ、相互運用性が欠如しているためである。
我々は,最初のマルチモーダルエンターメントツリージェネレータであるTV-TREESを提案する。
tv-trees はビデオ理解のアプローチとして機能し、ビデオと高レベルな結論に直接関係する単純な前提間の関係を包含する木を作ることで、解釈可能な共同モダリティ推論を促進する。
次に,そのような手法の推論品質を評価するために,マルチモーダル包含木生成のタスクを導入する。
tvqaデータセットにおける本手法の実験結果から,全ビデオクリップにおける最先端のゼロショット性能が示され,ブラックボックス方式とは対照的な両世界の最良さが示された。
関連論文リスト
- HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。
我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文 参考訳(メタデータ) (2024-06-01T05:41:12Z) - VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
ビデオデータの冗長性が高いため、ビデオの長文理解は難しい課題となっている。
我々は,クエリ適応的かつ階層的なビデオ表現を構築する,トレーニングフリーのフレームワークであるVideoTreeを提案する。
実験の結果,本フレームワークは従来の手法と比較して,推論精度と効率性を両立していることがわかった。
論文 参考訳(メタデータ) (2024-05-29T15:49:09Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Multimodal Chain-of-Thought Reasoning in Language Models [94.70184390935661]
言語(テキスト)と視覚(画像)のモダリティを2段階のフレームワークに組み込んだマルチモーダルCoTを提案する。
その結果,ScienceQA と A-OKVQA のベンチマークは,提案手法の有効性を示した。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Hypotheses Tree Building for One-Shot Temporal Sentence Localization [53.82714065005299]
ワンショット時間文のローカライゼーション(ワンショットTSL)は、1つの注釈付きフレームだけでビデオ全体のクエリ情報を取得することを学習する。
我々はMHST(Multiple hypotheses Segment Tree)と呼ばれるワンショットTSLのための有効で斬新な木構造ベースラインを提案する。
MHSTは、不十分なアノテーションの下で、クエリ対応の識別フレーム情報をキャプチャする。
論文 参考訳(メタデータ) (2023-01-05T01:50:43Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。