論文の概要: Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning
- arxiv url: http://arxiv.org/abs/2603.15008v1
- Date: Mon, 16 Mar 2026 09:15:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.905739
- Title: Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning
- Title(参考訳): Clue Matters: ビデオ推論に潜入したビジュアルクレームを活用する
- Authors: Kaixin zhang, Xiaohe Li, Jiahao Li, Haohua Wu, Xinyu Zhao, Zide Fan, Lei Wang,
- Abstract要約: この研究はMLLMビデオ理解における知覚と世代間のギャップを埋め、ビデオQAアプリケーションのための解釈可能で忠実な推論パラダイムを提供する。
階層的人間の視覚認知に着想を得たClueNetを提案する。
- 参考スコア(独自算出の注目度): 14.945921705882725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal Large Language Models (MLLMs) have significantly advanced video reasoning, yet Video Question Answering (VideoQA) remains challenging due to its demand for temporal causal reasoning and evidence-grounded answer generation. Prevailing end-to-end MLLM frameworks lack explicit structured reasoning between visual perception and answer derivation, causing severe hallucinations and poor interpretability. Existing methods also fail to address three core gaps: faithful visual clue extraction, utility-aware clue filtering, and end-to-end clue-answer alignment. Inspired by hierarchical human visual cognition, we propose ClueNet, a clue-aware video reasoning framework with a two-stage supervised fine-tuning paradigm without extensive base model modifications. Decoupled supervision aligns clue extraction and chain-based reasoning, while inference supervision with an adaptive clue filter refines high-order reasoning, alongside lightweight modules for efficient inference. Experiments on NExT-QA, STAR, and MVBench show that ClueNet outperforms state-of-the-art methods by $\ge$ 1.1%, with superior generalization, hallucination mitigation, inference efficiency, and cross-backbone compatibility. This work bridges the perception-to-generation gap in MLLM video understanding, providing an interpretable, faithful reasoning paradigm for high-stakes VideoQA applications.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)はビデオ推論を著しく進歩させるが,ビデオ質問回答(Video Question Answering, VideoQA)は時間的因果推論と根拠に基づく回答生成の要求により依然として困難である。
エンド・ツー・エンドのMLLMフレームワークでは、視覚知覚と回答導出の間に明確な構造的推論が欠如しており、深刻な幻覚と解釈可能性の低下を引き起こしている。
既存の手法では、忠実な視覚的手がかり抽出、ユーティリティ対応のヒントフィルタリング、エンドツーエンドのヒント-問合せアライメントの3つのコアギャップにも対処できない。
階層的人間の視覚認知に着想を得たClueNetを提案する。ClueNetは、2段階の教師付き微調整パラダイムをベースモデル修正を伴わない,手掛かりを意識したビデオ推論フレームワークである。
分離された監督は、手がかり抽出と連鎖に基づく推論を整列させ、適応的なヒントフィルタによる推論監督は、効率的な推論のための軽量モジュールとともに高次推論を洗練させる。
NExT-QA、STAR、MVBenchの実験により、ClueNetは、より優れた一般化、幻覚緩和、推論効率、およびクロスバックボーン互換性を持つ最先端のメソッドを$$$$1.1%で上回ることを示した。
この研究はMLLMビデオ理解における知覚と世代間のギャップを埋め、高精細なビデオQAアプリケーションのための解釈可能で忠実な推論パラダイムを提供する。
関連論文リスト
- Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - LeAdQA: LLM-Driven Context-Aware Temporal Grounding for Video Question Answering [10.060267989615813]
本稿では,これらのギャップを埋める斬新な手法であるLeAdQAを紹介する。
NExT-QA, IntentQA, NExT-GQAに関する実験により, 本手法の正確な視覚的基盤化は, 映像検索関係の理解を著しく向上させることを示した。
論文 参考訳(メタデータ) (2025-07-20T01:57:00Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning [53.790502697674754]
本稿では、画像入力を重要な推論段階に移行する戦略であるTake-Allong Visual Conditioning (TVC)を提案する。
TVCは、推論を通して視覚的なコンポーネントへの注意を維持するのに役立つ。
提案手法は,5つの数学的推論ベンチマークにおいて,最先端の性能を平均で達成する。
論文 参考訳(メタデータ) (2025-03-17T16:45:12Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。