論文の概要: Video-ToC: Video Tree-of-Cue Reasoning
- arxiv url: http://arxiv.org/abs/2604.20473v1
- Date: Wed, 22 Apr 2026 12:02:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.115907
- Title: Video-ToC: Video Tree-of-Cue Reasoning
- Title(参考訳): Video-ToC:ビデオ・ツリー・オブ・キュー(動画)
- Authors: Qizhong Tan, Zhuotao Tian, Guangming Lu, Jun Yu, Wenjie Pei,
- Abstract要約: ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は複雑なビデオ理解に苦しむ。
Video-ToCは、ツリー・オブ・キュー推論によるビデオ理解を強化する新しいビデオ推論フレームワークである。
- 参考スコア(独自算出の注目度): 65.66891474457466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Video Large Language Models (Video LLMs) struggle with complex video understanding, exhibiting limited reasoning capabilities and potential hallucinations. In particular, these methods tend to perform reasoning solely relying on the pretrained inherent reasoning rationales whilst lacking perception-aware adaptation to the input video content. To address this, we propose \textbf{Video-ToC}, a novel video reasoning framework that enhances video understanding through tree-of-cue reasoning. Specifically, our approach introduces three key innovations: (1) A tree-guided visual cue localization mechanism, which endows the model with enhanced fine-grained perceptual capabilities through structured reasoning patterns; (2) A reasoning-demand reward mechanism, which dynamically adjusts the reward value for reinforcement learning (RL) based on the estimation of reasoning demands, enabling on-demand incentives for more effective reasoning strategies; and (3) An automated annotation pipeline that constructs the Video-ToC-SFT-1k and Video-ToC-RL-2k datasets for supervised fine-tuning (SFT) and RL training, respectively. Extensive evaluations on six video understanding benchmarks and a video hallucination benchmark demonstrate the superiority of Video-ToC over baselines and recent methods. Code is available at https://github.com/qizhongtan/Video-ToC.
- Abstract(参考訳): 既存のビデオ大言語モデル(ビデオLLM)は複雑なビデオ理解に苦慮し、限られた推論能力と潜在的な幻覚を示す。
特に、これらの手法は、入力ビデオコンテンツへの認識適応を欠いたまま、事前訓練された固有の推論論理にのみ依存する推論を行う傾向にある。
そこで本研究では,木木推論による映像理解を向上する新しいビデオ推論フレームワークである \textbf{Video-ToC} を提案する。
具体的には,(1)構造化推論パターンによる微妙な知覚能力を持つモデルを実現する木誘導視覚キューの局所化機構,(2)推論要求の推定に基づいて強化学習(RL)に対する報酬値を動的に調整する推論要求報奨機構,(3)ビデオ-ToC-SFT-1kとビデオ-ToC-RL-2kを教師付き微調整(SFT)とRLトレーニング用に構築する自動パイプライン,の3つの重要な革新を紹介した。
6つのビデオ理解ベンチマークとビデオ幻覚ベンチマークの広範囲な評価は、ベースラインと最近の手法よりもVideo-ToCの方が優れていることを示す。
コードはhttps://github.com/qizhongtan/Video-ToC.comで公開されている。
関連論文リスト
- Clue Matters: Leveraging Latent Visual Clues to Empower Video Reasoning [14.945921705882725]
この研究はMLLMビデオ理解における知覚と世代間のギャップを埋め、ビデオQAアプリケーションのための解釈可能で忠実な推論パラダイムを提供する。
階層的人間の視覚認知に着想を得たClueNetを提案する。
論文 参考訳(メタデータ) (2026-03-16T09:15:12Z) - LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding [106.23494088118571]
LongVideo-R1は、効率的なビデオコンテキストナビゲーションのためのマルチモーダル大言語モデル(MLLM)エージェントである。
これは、その後の処理において最も情報に富むビデオクリップを推測する。
LongVideo-R1エージェントは、2段階のパラダイムを通じてQwen-3-8Bモデルに微調整される。
論文 参考訳(メタデータ) (2026-02-24T13:49:47Z) - Video-CoM: Interactive Video Reasoning via Chain of Manipulations [78.64256470920166]
Interactive Video Reasoningを導入し、モデルが「ビデオについて考える」ことができるようにします。
当社のモデルである Video CoM は,CoM (Chain of Manipulations) を介し,証拠を収集・精査するための反復的な視覚行動を行う。
Video CoMは9つのビデオ推論ベンチマークで強い結果を出し、最近のアートモデルと比べて平均性能を3.6%向上させた。
論文 参考訳(メタデータ) (2025-11-28T18:59:57Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [35.64831081829936]
Reinforcement fine-tuning (RFT) は人間レベルの推論能力を達成する上で非常に有望である。
VideoRFT は RFT の標準的な2段階スキームに従う: チェーン・オブ・シント(CoT)アノテーションによる細調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークにおいて,ビデオRFTが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。