論文の概要: Video-KTR: Reinforcing Video Reasoning via Key Token Attribution
- arxiv url: http://arxiv.org/abs/2601.19686v1
- Date: Tue, 27 Jan 2026 15:02:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.36124
- Title: Video-KTR: Reinforcing Video Reasoning via Key Token Attribution
- Title(参考訳): Video-KTR:キートークン属性によるビデオ推論の強化
- Authors: Ziyue Wang, Sheng Jin, Zhongrong Zuo, Jiawei Wu, Han Qiu, Qi She, Hao Zhang, Xudong Jiang,
- Abstract要約: 強化学習 (Reinforcement Learning, RL) は多モーダル大言語モデルにおける推論の強化に強い可能性を示している。
選択的なトークンレベルRLを実行するモダリティ対応のポリシーシェーピングフレームワークであるVideo-KTRを提案する。
Video-KTRは最先端または高い競争力を持ち、ビデオホルム(GPT-4oを通り抜ける)で42.7%を達成し、推論と一般的なビデオ理解の両タスクで一貫した利益を得ている。
- 参考スコア(独自算出の注目度): 25.432599971462636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has shown strong potential for enhancing reasoning in multimodal large language models, yet existing video reasoning methods often rely on coarse sequence-level rewards or single-factor token selection, neglecting fine-grained links among visual inputs, temporal dynamics, and linguistic outputs, limiting both accuracy and interpretability. We propose Video-KTR, a modality-aware policy shaping framework that performs selective, token-level RL by combining three attribution signals: (1) visual-aware tokens identified via counterfactual masking to reveal perceptual dependence; (2) temporal-aware tokens detected through frame shuffling to expose temporal sensitivity; and (3) high-entropy tokens signaling predictive uncertainty. By reinforcing only these key tokens, Video-KTR focuses learning on semantically informative, modality-sensitive content while filtering out low-value tokens. Across five challenging benchmarks, Video-KTR achieves state-of-the-art or highly competitive results, achieving 42.7\% on Video-Holmes (surpassing GPT-4o) with consistent gains on both reasoning and general video understanding tasks. Ablation studies verify the complementary roles of the attribution signals and the robustness of targeted token-level updates. Overall, Video-KTR improves accuracy and interpretability, offering a simple, drop-in extension to RL for complex video reasoning. Our code and models are available at https://github.com/zywang0104/Video-KTR.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、多モーダルな大言語モデルにおける推論を強化する強力な可能性を示しているが、既存のビデオ推論手法は、しばしば粗いシーケンスレベルの報酬や単一要素のトークンの選択に依存し、視覚入力、時間力学、言語出力間のきめ細かいリンクを無視し、精度と解釈可能性の両方を制限している。
我々は,(1)偽マスキングによって識別される視覚的トークンを知覚的依存を明らかにするために,(2)フレームシャッフルによって検出された時間的トークンを時間的感度を表わすために,(3)高エントロピートークンを予測的不確実性を示す3つの属性信号を組み合わせることで,選択的かつトークンレベルのRLを実現するモダリティ対応のポリシシェーピングフレームワークであるVideo-KTRを提案する。
これらのキートークンのみを強化することで、Video-KTRは、低価値トークンをフィルタリングしながら、意味的に有意義で、モダリティに敏感なコンテンツを学ぶことに注力する。
5つの挑戦的なベンチマークで、Video-KTRは最先端または高い競争力のある結果を達成し、ビデオホルム(GPT-4oを通り抜ける)で42.7\%を達成し、推論と一般的なビデオ理解の両タスクで一貫した利得を得た。
アブレーション研究は、帰属シグナルの相補的役割と、標的となるトークンレベルの更新の堅牢性を検証する。
全体として、Video-KTRは精度と解釈性を改善し、複雑なビデオ推論のためのシンプルなRLの拡張を提供する。
私たちのコードとモデルはhttps://github.com/zywang0104/Video-KTRで公開されています。
関連論文リスト
- When and What: Diffusion-Grounded VideoLLM with Entity Aware Segmentation for Long Video Understanding [12.410012029024342]
我々は,3つの重要なイノベーションを導入することで,制限を克服するビデオLLMであるGrounded VideoDiTを紹介する。
第一に、拡散時間遅延(DTL)エンコーダは境界感度を高め、時間的一貫性を維持する。
第二に、オブジェクト基底表現は、クエリエンティティを局所化された視覚的エビデンスに明示的に結合し、アライメントを強化する。
第三に、離散時間的タイムスタンプトークンを持つ混合トークンスキームは明示的なモデリングを提供し、きめ細かい時間的推論を可能にする。
論文 参考訳(メタデータ) (2025-08-21T15:12:14Z) - Reinforcing Video Reasoning with Focused Thinking [65.85683941058916]
本稿では,集中的思考と深い報酬の粒度で視覚的推論を強化する新しいフレームワークであるTW-GRPOを提案する。
具体的には,高情報密度のトークンを優先するトークン重み付け機構を用いる。
また,シングルチョイスからマルチチョイスQAタスクにシフトすることで,RLトレーニングを再構築する。
論文 参考訳(メタデータ) (2025-05-30T15:42:19Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [35.64831081829936]
Reinforcement fine-tuning (RFT) は人間レベルの推論能力を達成する上で非常に有望である。
VideoRFT は RFT の標準的な2段階スキームに従う: チェーン・オブ・シント(CoT)アノテーションによる細調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークにおいて,ビデオRFTが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。