論文の概要: Query-Conditioned Evidential Keyframe Sampling for MLLM-Based Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2604.01002v1
- Date: Wed, 01 Apr 2026 15:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.050421
- Title: Query-Conditioned Evidential Keyframe Sampling for MLLM-Based Long-Form Video Understanding
- Title(参考訳): MLLMによる長文ビデオ理解のための問合せ型エビデンシャル・キーフレームサンプリング
- Authors: Yiheng Wang, Lichen Zhu, Yueqian Lin, Yudong Liu, Jingyang Zhang, Hai "Helen" Li, Yiran Chen,
- Abstract要約: MLLM(Multimodal Large Language Models)は,ビデオ質問応答において高い性能を示した。
ロングフォームビデオへのそれらの応用は、コンテキスト長と計算コストの制限によって制限される。
本稿では,情報理論に基づくエビデンス駆動サンプリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.306038832082553
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have shown strong performance on video question answering, but their application to long-form videos is constrained by limited context length and computational cost, making keyframe sampling essential. Existing approaches typically rely on semantic relevance or reinforcement learning, which either fail to capture evidential clues or suffer from inefficient combinatorial optimization. In this work, we propose an evidence-driven keyframe sampling framework grounded in information bottleneck theory. We formulate keyframe selection as maximizing the conditional mutual information between selected frames and the query, providing a principled objective that reflects each frame's contribution to answering the question. To make this objective tractable, we exploit its structure to derive a decomposed optimization that reduces subset selection to independent frame-level scoring. We further introduce a query-conditioned evidence scoring network trained with a contrastive objective to estimate evidential importance efficiently. Experiments on long-form video understanding benchmarks show that our method consistently outperforms prior sampling strategies under strict token budgets, while significantly improving training efficiency.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,ビデオ質問応答において高い性能を示すが,長文ビデオへの適用は文脈長と計算コストの制限により制限されており,キーフレームのサンプリングが不可欠である。
既存のアプローチは、典型的には意味的関連性や強化学習に依存しており、明らかな手がかりを捉えられなかったり、非効率的な組合せ最適化に苦しんだりしている。
本研究では,情報ボトルネック理論に基づくエビデンス駆動鍵フレームサンプリングフレームワークを提案する。
我々は,キーフレームの選択を,選択したフレームとクエリ間の条件付き相互情報の最大化として定式化し,各フレームの回答に対する貢献を反映した基本的目的を与える。
この目的を抽出可能にするために,サブセット選択を独立フレームレベルのスコアリングに還元する分解最適化を導出するために,その構造を利用する。
さらに,提案手法は,提案手法の重要度を効果的に推定するために,比較対象で訓練されたクエリ条件付証拠評価ネットワークを導入する。
長文ビデオ理解ベンチマーク実験により, 厳格なトークン予算下でのサンプリング手法の精度は向上し, トレーニング効率は大幅に向上した。
関連論文リスト
- VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding [9.415923244280542]
VideoBrainは、Vision-Language Modelsが学習したサンプリングポリシーを通じて視覚情報を適応的に取得することを可能にするエンドツーエンドフレームワークである。
提案手法は,ビデオ間の意味検索を行うCLIPエージェントと,時間間隔内での高密度サンプリングを行うUniformエージェントの2つの補完エージェントを特徴とする。
論文 参考訳(メタデータ) (2026-02-04T00:08:35Z) - A.I.R.: Enabling Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering [15.220013605396396]
A.I.R.はAdaptive, Iterative, Reasoningベースのフレーム選択のためのトレーニング不要のアプローチである。
我々は、複雑なクエリに対して深い意味解析を行うために、強力な視覚言語モデル(VLM)を活用している。
提案手法は基礎VLMの性能を大幅に向上させ,計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-06T01:51:13Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - Adaptive Video Understanding Agent: Enhancing efficiency with dynamic frame sampling and feedback-driven reasoning [29.89820310679906]
本稿では,長大な映像理解の効率性と有効性を両立させるエージェントベース手法を提案する。
提案手法の重要な側面はクエリ適応型フレームサンプリングであり,LLMの推論能力を利用して,最も関連性の高いフレームのみをリアルタイムに処理する。
提案手法を複数のビデオ理解ベンチマークで評価し,最先端性能の向上だけでなく,サンプリングしたフレーム数を削減して効率の向上を図っている。
論文 参考訳(メタデータ) (2024-10-26T19:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。