論文の概要: ReaSon: Reinforced Causal Search with Information Bottleneck for Video Understanding
- arxiv url: http://arxiv.org/abs/2511.12530v1
- Date: Sun, 16 Nov 2025 09:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.299818
- Title: ReaSon: Reinforced Causal Search with Information Bottleneck for Video Understanding
- Title(参考訳): ReaSon: ビデオ理解のためのインフォメーション・ボトルネックによる強化された因果検索
- Authors: Yuan Zhou, Litao Hua, Shilong Jin, Wentao Huang, Haoran Duan,
- Abstract要約: 本稿では,新たなCausal Information Bottleneck(CIB)の助けを借りて,選択を最適化問題として定式化するフレームワークを提案する。
具体的には、ReaSonは学習可能なポリシーネットワークを使用して、視覚的に関係のある候補フレームのプールから選択し、予測効率を捕捉し、カウンターファクトリアルを介して因果的必要性を評価する。
- 参考スコア(独自算出の注目度): 10.320439319212463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyframe selection has become essential for video understanding with vision-language models (VLMs) due to limited input tokens and the temporal sparsity of relevant information across video frames. Video understanding often relies on effective keyframes that are not only informative but also causally decisive. To this end, we propose Reinforced Causal Search with Information Bottleneck (ReaSon), a framework that formulates keyframe selection as an optimization problem with the help of a novel Causal Information Bottleneck (CIB), which explicitly defines keyframes as those satisfying both predictive sufficiency and causal necessity. Specifically, ReaSon employs a learnable policy network to select keyframes from a visually relevant pool of candidate frames to capture predictive sufficiency, and then assesses causal necessity via counterfactual interventions. Finally, a composite reward aligned with the CIB principle is designed to guide the selection policy through reinforcement learning. Extensive experiments on NExT-QA, EgoSchema, and Video-MME demonstrate that ReaSon consistently outperforms existing state-of-the-art methods under limited-frame settings, validating its effectiveness and generalization ability.
- Abstract(参考訳): キーフレームの選択は、限られた入力トークンとビデオフレーム間の関連情報の時間的間隔により、視覚言語モデル(VLM)によるビデオ理解に欠かせないものとなっている。
ビデオ理解は、しばしば効果的なキーフレームに依存します。
そこで本研究では,キーフレーム選択を最適化問題として定式化するためのフレームワークであるReinforced Causal Search with Information Bottleneck (ReaSon)を提案する。
具体的には、ReaSonは学習可能なポリシーネットワークを使用して、視覚的に関連する候補フレームのプールからキーフレームを選択し、予測効率を捕捉し、反ファクト的介入を通じて因果的必要性を評価する。
最後に、CIB原則に則った複合報酬は、強化学習を通じて選択政策を導出するように設計されている。
NExT-QA、EgoSchema、Video-MMEに関する大規模な実験では、ReaSonは限定フレーム設定下で既存の最先端メソッドを一貫して上回り、その有効性と一般化能力を検証している。
関連論文リスト
- K-frames: Scene-Driven Any-k Keyframe Selection for long video understanding [38.06179287702453]
Kフレームは、時間的連続性を保存するシーン駆動の選択のための新しいパラダイムである。
個々のフレームを選択する代わりに、Kフレームは意味的に一貫性のあるクエリ関連クリップを予測する。
Kフレームは、様々なスケールで選択するための効果的な、解釈可能な、プラグアンドプレイソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-14T06:23:22Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。