論文の概要: TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
- arxiv url: http://arxiv.org/abs/2402.19467v1
- Date: Thu, 29 Feb 2024 18:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:14:29.073526
- Title: TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
- Title(参考訳): TV-TREES:ニューロシンボリックビデオ推論のためのマルチモーダルエンターメントツリー
- Authors: Kate Sanders, Nathaniel Weir, Benjamin Van Durme
- Abstract要約: 我々は,最初のマルチモーダル・エンターメント・ツリー・ジェネレータであるTV-TREESを提案する。
TV-TREESは、解釈可能な共同モダリティ推論を促進するビデオ理解のアプローチとして機能する。
そこで我々は,このような手法の推論品質を評価するために,マルチモーダル・エンテーメント・ツリー生成の課題を導入する。
- 参考スコア(独自算出の注目度): 35.506147885543136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is challenging to perform question-answering over complex, multimodal
content such as television clips. This is in part because current
video-language models rely on single-modality reasoning, have lowered
performance on long inputs, and lack interpetability. We propose TV-TREES, the
first multimodal entailment tree generator. TV-TREES serves as an approach to
video understanding that promotes interpretable joint-modality reasoning by
producing trees of entailment relationships between simple premises directly
entailed by the videos and higher-level conclusions. We then introduce the task
of multimodal entailment tree generation to evaluate the reasoning quality of
such methods. Our method's experimental results on the challenging TVQA dataset
demonstrate intepretable, state-of-the-art zero-shot performance on full video
clips, illustrating a best of both worlds contrast to black-box methods.
- Abstract(参考訳): テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行うことは困難である。
これは、現在のビデオ言語モデルは単一のモダリティ推論に依存し、長い入力のパフォーマンスを低下させ、相互運用性が欠如しているためである。
我々は,最初のマルチモーダルエンターメントツリージェネレータであるTV-TREESを提案する。
tv-trees はビデオ理解のアプローチとして機能し、ビデオと高レベルな結論に直接関係する単純な前提間の関係を包含する木を作ることで、解釈可能な共同モダリティ推論を促進する。
次に,そのような手法の推論品質を評価するために,マルチモーダル包含木生成のタスクを導入する。
tvqaデータセットにおける本手法の実験結果から,全ビデオクリップにおける最先端のゼロショット性能が示され,ブラックボックス方式とは対照的な両世界の最良さが示された。
関連論文リスト
- Causal Video Summarizer for Video Exploration [74.27487067877047]
Causal Video Summarizer (CVS) はビデオとクエリ間の対話的な情報をキャプチャするために提案されている。
既存のマルチモーダル映像要約データセットの評価から,提案手法が有効であることを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-07-04T22:52:16Z) - Hypotheses Tree Building for One-Shot Temporal Sentence Localization [53.82714065005299]
ワンショット時間文のローカライゼーション(ワンショットTSL)は、1つの注釈付きフレームだけでビデオ全体のクエリ情報を取得することを学習する。
我々はMHST(Multiple hypotheses Segment Tree)と呼ばれるワンショットTSLのための有効で斬新な木構造ベースラインを提案する。
MHSTは、不十分なアノテーションの下で、クエリ対応の識別フレーム情報をキャプチャする。
論文 参考訳(メタデータ) (2023-01-05T01:50:43Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - End-to-End Modeling via Information Tree for One-Shot Natural Language
Spatial Video Grounding [90.86402840638941]
自然言語空間ビデオグラウンドティングは,ビデオフレーム内の関連オブジェクトをクエリとして記述文で検出することを目的としている。
本研究では, ワンショット映像のグラウンド化について検討し, エンド・ツー・エンド方式で, 一つのフレームのみをラベル付けした全ビデオフレームで自然言語を学習する。
論文 参考訳(メタデータ) (2022-03-15T15:50:45Z) - Video as Conditional Graph Hierarchy for Multi-Granular Question
Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。
本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文 参考訳(メタデータ) (2021-12-12T10:35:19Z) - See, Hear, Read: Leveraging Multimodality with Guided Attention for
Abstractive Text Summarization [14.881597737762316]
我々は,NDSS,ICML,NeurIPSなどの著名な学術カンファレンスのプレゼンテーションから収集した,様々な期間のビデオを用いた抽象テキスト要約のための最初の大規模データセットを紹介する。
次に,多モード変換器をベースとしたデコーダのみの言語モデルであるnameを提案し,テキスト要約タスクの様々な入力モードにおけるモーダル内およびモーダル間ダイナミクスを本質的にキャプチャする。
論文 参考訳(メタデータ) (2021-05-20T08:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。