Fugu-MT 論文翻訳(概要): TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

論文の概要: TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning

arxiv url: http://arxiv.org/abs/2402.19467v1
Date: Thu, 29 Feb 2024 18:57:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:14:29.073526
Title: TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning
Title（参考訳）: TV-TREES:ニューロシンボリックビデオ推論のためのマルチモーダルエンターメントツリー
Authors: Kate Sanders, Nathaniel Weir, Benjamin Van Durme
Abstract要約: 我々は,最初のマルチモーダル・エンターメント・ツリー・ジェネレータであるTV-TREESを提案する。 TV-TREESは、解釈可能な共同モダリティ推論を促進するビデオ理解のアプローチとして機能する。そこで我々は,このような手法の推論品質を評価するために,マルチモーダル・エンテーメント・ツリー生成の課題を導入する。
参考スコア（独自算出の注目度）: 35.506147885543136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It is challenging to perform question-answering over complex, multimodal content such as television clips. This is in part because current video-language models rely on single-modality reasoning, have lowered performance on long inputs, and lack interpetability. We propose TV-TREES, the first multimodal entailment tree generator. TV-TREES serves as an approach to video understanding that promotes interpretable joint-modality reasoning by producing trees of entailment relationships between simple premises directly entailed by the videos and higher-level conclusions. We then introduce the task of multimodal entailment tree generation to evaluate the reasoning quality of such methods. Our method's experimental results on the challenging TVQA dataset demonstrate intepretable, state-of-the-art zero-shot performance on full video clips, illustrating a best of both worlds contrast to black-box methods.
Abstract（参考訳）: テレビクリップのような複雑なマルチモーダルコンテンツに対して質問応答を行うことは困難である。これは、現在のビデオ言語モデルは単一のモダリティ推論に依存し、長い入力のパフォーマンスを低下させ、相互運用性が欠如しているためである。我々は,最初のマルチモーダルエンターメントツリージェネレータであるTV-TREESを提案する。 tv-trees はビデオ理解のアプローチとして機能し、ビデオと高レベルな結論に直接関係する単純な前提間の関係を包含する木を作ることで、解釈可能な共同モダリティ推論を促進する。次に,そのような手法の推論品質を評価するために,マルチモーダル包含木生成のタスクを導入する。 tvqaデータセットにおける本手法の実験結果から,全ビデオクリップにおける最先端のゼロショット性能が示され,ブラックボックス方式とは対照的な両世界の最良さが示された。

関連論文リスト

Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [29.811030252357195]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
論文参考訳（メタデータ） (2025-08-06T13:03:21Z)
VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering [14.039561301034848]
ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
論文参考訳（メタデータ） (2025-08-05T03:33:24Z)
See the Forest and the Trees: A Synergistic Reasoning Framework for Knowledge-Based Visual Question Answering [15.983971611104057]
本稿では,新しい相乗的推論フレームワークであるSynergos-VQAを提案する。コアとなるSynergos-VQAは、推論時に3つの補完的なエビデンスストリームを同時に生成し、融合する。提案手法は強力なプラグアンドプレイ能力を示し,様々なオープンソースMLLMを大幅に向上させる。
論文参考訳（メタデータ） (2025-07-23T16:24:57Z)
VideoMathQA: Benchmarking Mathematical Reasoning via Multimodal Understanding in Videos [89.39873803375498]
VideoMathQAは、ビデオ上で時間的に拡張されたクロスモーダル推論を実行できるかどうかを評価するために設計されたベンチマークである。ベンチマークは10種類の数学的領域にまたがっており、ビデオは10秒から1時間以上に及ぶ。構造化された視覚的コンテンツを解釈し、指導的物語を理解し、視覚的、音声的、テキスト的モダリティにまたがる共同概念を理解するためのモデルが必要である。
論文参考訳（メタデータ） (2025-06-05T17:59:58Z)
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding [30.32854757487097]
TheoremExplainAgentは,長文の定理説明ビデオを生成するエージェント的手法である。以上の結果から, エージェントプランニングは, 詳細な長編ビデオ作成に不可欠であることが判明した。マルチモーダルな説明は、テキストベースの説明が明らかにならない深い推論の欠陥を露呈する。
論文参考訳（メタデータ） (2025-02-26T18:50:09Z)
Commonsense Video Question Answering through Video-Grounded Entailment Tree Reasoning [43.587027293772245]
そこで本研究では,コモンセンスビデオ質問応答のためのビデオ接地木推論手法を提案する。提案手法は,VQAタスクをビデオフラグメントに,包括木構築,ビデオ言語による包括検証,ツリー推論,動的木拡張の4ステップで明示的に適用する。公平な評価を支援するため,VQAベンチマークの回答セットを書き換える大規模モデルに基づくバイアス除去手法を考案した。
論文参考訳（メタデータ） (2025-01-09T08:44:42Z)
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。 GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T08:33:36Z)
HENASY: Learning to Assemble Scene-Entities for Egocentric Video-Language Model [9.762722976833581]
現在のモデルは、ビデオと言語間のインスタンスレベルのアライメントに大きく依存している。我々は、人間の知覚からインスピレーションを得て、エゴビデオ表現のための構成的アプローチを探求する。
論文参考訳（メタデータ） (2024-06-01T05:41:12Z)
VideoTree: Adaptive Tree-based Video Representation for LLM Reasoning on Long Videos [67.78336281317347]
ビデオデータの冗長性が高いため、ビデオの長文理解は難しい課題となっている。我々は,クエリ適応的かつ階層的なビデオ表現を構築する,トレーニングフリーのフレームワークであるVideoTreeを提案する。実験の結果,本フレームワークは従来の手法と比較して,推論精度と効率性を両立していることがわかった。
論文参考訳（メタデータ） (2024-05-29T15:49:09Z)
Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文参考訳（メタデータ） (2024-04-24T17:59:48Z)
Hypotheses Tree Building for One-Shot Temporal Sentence Localization [53.82714065005299]
ワンショット時間文のローカライゼーション(ワンショットTSL)は、1つの注釈付きフレームだけでビデオ全体のクエリ情報を取得することを学習する。我々はMHST(Multiple hypotheses Segment Tree)と呼ばれるワンショットTSLのための有効で斬新な木構造ベースラインを提案する。 MHSTは、不十分なアノテーションの下で、クエリ対応の識別フレーム情報をキャプチャする。
論文参考訳（メタデータ） (2023-01-05T01:50:43Z)
Video as Conditional Graph Hierarchy for Multi-Granular Question Answering [80.94367625007352]
ビデオはフレームシーケンスで表現されるが、視覚要素はシーケンシャルではなく、セマンティック空間において階層的である。本稿では,異なる粒度の視覚的事実をレベルワイドに織り込む条件付きグラフ階層として,動画をモデル化することを提案する。
論文参考訳（メタデータ） (2021-12-12T10:35:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。