論文の概要: Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment
- arxiv url: http://arxiv.org/abs/2506.22385v1
- Date: Fri, 27 Jun 2025 16:51:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.295838
- Title: Can Video Large Multimodal Models Think Like Doubters-or Double-Down: A Study on Defeasible Video Entailment
- Title(参考訳): 巨大マルチモーダル・モデルは2倍か2倍か?:デファシブル・ビデオ・エンターテイメントの研究
- Authors: Yue Zhang, Jilei Sun, Yunhui Guo, Vibhav Gogate,
- Abstract要約: 私たちはDVidE(Defeasible Video Entailment)を紹介します。
DVidEでは、ビデオ前提とテキスト仮説が考慮され、新しい更新が仮説を強化または弱めるかどうかをモデルが判断しなければならない。
生成タスクにおいて、ASR出力とLLM(Large Language Model)を組み合わせ、一貫性のある文脈に関連のある更新を生成するフレームワークを開発する。
- 参考スコア(独自算出の注目度): 19.682019558287973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Multimodal Models (VLMMs) have made impressive strides in understanding video content, but they often struggle with abstract and adaptive reasoning-the ability to revise their interpretations when new information emerges. In reality, conclusions are rarely set in stone; additional context can strengthen or weaken an initial inference. To address this, we introduce Defeasible Video Entailment (DVidE), a new task that challenges models to think like doubters, constantly updating their reasoning based on evolving evidence. In DVidE, given a video premise and a textual hypothesis, models must determine whether a new update strengthens or weakens the hypothesis (classification version) or generate a coherent update that modifies the entailment relationship (generation version). For solving the classification task, we propose the Chain of Counterfactual Thought framework, utilizing counterfactual reasoning, ASR-enhanced video content, and rationale refinement to reduce inference bias. For the generation task, we develop a framework that combines ASR output with a Large Language Model (LLM) to produce coherent, contextually relevant updates aligned with the intended strengthener or weakener goals. Additionally, we introduce a novel benchmark dataset, with strengthener/weakener annotations and an LLM-based evaluation metric specifically designed for assessing generative performance. Experimental results demonstrate significant improvements, highlighting our proposed method in enhancing dynamic reasoning capabilities of VLMMs.
- Abstract(参考訳): Video Large Multimodal Models (VLMM) は、ビデオコンテンツを理解するために顕著な進歩を遂げてきたが、しばしば抽象的かつ適応的な推論に苦しむ。
実際、結論は石に設定されることはめったにないが、追加の文脈は初期推論を強化したり弱めたりすることができる。
この問題に対処するために、我々はDVidE(Defeasible Video Entailment)という新しいタスクを紹介します。
DVidEでは、ビデオの前提とテキストの仮説が与えられた場合、新しい更新が仮説(分類版)を強化または弱めるか、あるいはentailment関係(生成版)を変更するコヒーレントな更新を生成するかを決定する必要がある。
分類課題を解決するために, 対実的思考の枠組みを提案し, 反実的推論, ASR強化ビデオコンテンツ, 推論バイアスの低減のための合理化手法を提案する。
生成タスクにおいて、ASR出力とLarge Language Model(LLM)を組み合わせたフレームワークを開発し、意図された強化あるいは弱化の目標に沿った一貫性のあるコンテキスト関係の更新を生成する。
さらに,ジェネレーション性能評価に特化して設計された,拡張/ウェイクナーアノテーションとLLMに基づく評価基準を備えた新しいベンチマークデータセットを導入する。
実験結果から,VLMMの動的推論能力を向上するための提案手法について明らかにした。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation [19.46864730994867]
マルチ次元マルチモーダルベンチマークであるtextbfunderline(textbfunderlineCounterfactual textbfunderlineEo textbfunderlineReasoning)を導入する。
複雑なクエリを構造化されたサブクエリに分解し、きめ細かい推論分析を可能にする。
論文 参考訳(メタデータ) (2025-03-12T03:25:51Z) - Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization [19.32714581384729]
我々はDVE(Dedeasible Visual Entailment)と呼ばれる新しいタスクを導入する。
ゴールは、追加更新に基づいて、画像前提とテキスト仮説の間の細部の関係を修正できるようにすることである。
高いレベルでは、DVEはモデルの初期解釈を洗練させ、様々なアプリケーションにおける精度と信頼性を向上させる。
論文 参考訳(メタデータ) (2024-12-19T02:38:31Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - QD-VMR: Query Debiasing with Contextual Understanding Enhancement for Video Moment Retrieval [7.313447367245476]
Video Moment Retrieval (VMR) は、クエリに対応する未トリミングビデオの関連モーメントを検索することを目的としている。
本稿では,文脈理解度を高めたクエリデバイアスモデルであるQD-VMRを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:56:42Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - Conditional Modeling Based Automatic Video Summarization [70.96973928590958]
ビデオ要約の目的は、全体を伝えるのに必要な重要な情報を保持しながら、自動的にビデオを短縮することである。
映像要約法は視覚的連続性や多様性などの視覚的要因に依存しており、ビデオの内容を完全に理解するには不十分である。
映像要約への新たなアプローチは、人間が地上の真実のビデオ要約を作成する方法から得られる知見に基づいて提案されている。
論文 参考訳(メタデータ) (2023-11-20T20:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。