論文の概要: HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning
- arxiv url: http://arxiv.org/abs/2512.11534v1
- Date: Fri, 12 Dec 2025 13:10:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.776473
- Title: HFS: Holistic Query-Aware Frame Selection for Efficient Video Reasoning
- Title(参考訳): HFS: 効率的なビデオ推論のためのホロスティッククエリ対応フレーム選択
- Authors: Yiqing Yang, Kin-Man Lam,
- Abstract要約: ビデオ理解におけるキーフレーム選択は重要な課題である。
フレームを独立にスコアする従来のトップK選択法は、選択全体を最適化するのに失敗することが多い。
フレーム選択のためのエンドツーエンドのトレーニング可能なタスク適応フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.569944737211472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key frame selection in video understanding presents significant challenges. Traditional top-K selection methods, which score frames independently, often fail to optimize the selection as a whole. This independent scoring frequently results in selecting frames that are temporally clustered and visually redundant. Additionally, training lightweight selectors using pseudo labels generated offline by Multimodal Large Language Models (MLLMs) prevents the supervisory signal from dynamically adapting to task objectives. To address these limitations, we propose an end-to-end trainable, task-adaptive framework for frame selection. A Chain-of-Thought approach guides a Small Language Model (SLM) to generate task-specific implicit query vectors, which are combined with multimodal features to enable dynamic frame scoring. We further define a continuous set-level objective function that incorporates relevance, coverage, and redundancy, enabling differentiable optimization via Gumbel-Softmax to select optimal frame combinations at the set level. Finally, student-teacher mutual learning is employed, where the student selector (SLM) and teacher reasoner (MLLM) are trained to align their frame importance distributions via KL divergence. Combined with cross-entropy loss, this enables end-to-end optimization, eliminating reliance on static pseudo labels. Experiments across various benchmarks, including Video-MME, LongVideoBench, MLVU, and NExT-QA, demonstrate that our method significantly outperforms existing approaches.
- Abstract(参考訳): ビデオ理解におけるキーフレーム選択は重要な課題である。
フレームを独立にスコアする従来のトップK選択法は、選択全体を最適化するのに失敗することが多い。
この独立したスコアリングは、時間的にクラスタ化され、視覚的に冗長なフレームを選択する結果が頻繁に発生する。
さらに,Multimodal Large Language Models (MLLMs) によってオフラインで生成された擬似ラベルを用いた軽量セレクタのトレーニングにより,タスク目標に動的に適応しない。
これらの制約に対処するために、フレーム選択のためのエンドツーエンドのトレーニング可能なタスク適応フレームワークを提案する。
Chain-of-Thoughtアプローチは、Small Language Model (SLM) をガイドし、タスク固有の暗黙的なクエリベクトルを生成する。
さらに、関連性、カバレッジ、冗長性を取り入れた連続的な設定レベル目的関数を定義し、Gumbel-Softmax を用いて最適なフレームの組み合わせをセットレベルで選択できる。
最後に、学生と教師の相互学習を行い、学生セレクタ(SLM)と教師ソリテータ(MLLM)を訓練し、KL分散を通してフレームの重要度分布を調整する。
クロスエントロピー損失と組み合わせることで、静的な擬似ラベルへの依存をなくし、エンドツーエンドの最適化が可能になる。
Video-MME, LongVideoBench, MLVU, NExT-QA など, 様々なベンチマーク実験により, 提案手法が既存手法よりも大幅に優れていることが示された。
関連論文リスト
- A.I.R.: Enabling Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering [15.220013605396396]
A.I.R.はAdaptive, Iterative, Reasoningベースのフレーム選択のためのトレーニング不要のアプローチである。
我々は、複雑なクエリに対して深い意味解析を行うために、強力な視覚言語モデル(VLM)を活用している。
提案手法は基礎VLMの性能を大幅に向上させ,計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-06T01:51:13Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs [13.306662159600677]
適応型フレーム選択とマルチテンポラリスケーリングのための新しいアプローチであるビデオQFrameを紹介する。
Q-Frameは、CLIPのようなテキスト画像マッチングネットワークによって生成されたトレーニング不要のプラグイン・アンド・プレイ戦略を採用している。
ベンチマークデータセットの広範な実験を通じて,Q-Frameの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-27T11:30:51Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - M-LLM Based Video Frame Selection for Efficient Video Understanding [60.93714759178143]
本稿では,ユーザのクエリに関連性の高いフレームを適応的に選択する,軽量なM-LLMベースのフレーム選択手法を提案する。
選択されたフレームは、視覚的推論と質問応答のための凍った下流ビデオM-LLMによって消化される。
論文 参考訳(メタデータ) (2025-02-27T01:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。