論文の概要: GIFT: Global Irreplaceability Frame Targeting for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2603.25072v1
- Date: Thu, 26 Mar 2026 06:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.135565
- Title: GIFT: Global Irreplaceability Frame Targeting for Efficient Video Understanding
- Title(参考訳): GIFT:効率的なビデオ理解のためのグローバルな不置換性フレームターゲティング
- Authors: Junpeng Ma, Sashuai Zhou, Guanghao Li, Xin Gao, Yue Cao, Hengyu Zeng, Yuxiang Yan, Zhibin Wang, Jun Song, Bo Zheng, Shanghang Zhang, Jian Pu,
- Abstract要約: GIFT: Global Irreplaceability Frame Targetingはトレーニング不要のフレームワークで、固有の非配置性を評価してフレームを選択する。
GIFTは,LLaVA-Video-7Bの長文ビデオベンチマークにおいて,一様サンプリングに比べて最大12.5%向上したことを示す。
- 参考スコア(独自算出の注目度): 63.62445065977448
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Large Language Models (VLMs) have achieved remarkable success in video understanding, but the significant computational cost from processing dense frames severely limits their practical application. Existing methods alleviate this by selecting keyframes, but their greedy decision-making, combined with a decoupled evaluation of relevance and diversity, often falls into local optima and results in erroneously selecting irrelevant noise frames. To address these challenges, we propose GIFT: Global Irreplaceability Frame Targeting, a novel training-free framework that selects frames by assessing their intrinsic irreplaceability. Specifically, we first introduce Directed Diversity to quantify a frame's uniqueness conditioned on relevance, which allows us to formulate a unified irreplaceability score. Subsequently, our Budget-Aware Refinement strategy employs a adaptive iterative process that first secures a core set of frames with the highest irreplaceability, and then shifts its priority to building crucial temporal context around these selections as the budget expands. Extensive experiments demonstrate that GIFT achieves a maximum average improvement of 12.5% across long-form video benchmarks on LLaVA-Video-7B compared to uniform sampling.
- Abstract(参考訳): ビデオ大言語モデル(VLM)はビデオ理解において顕著な成功を収めてきたが、高密度フレームの処理による計算コストは、その実用性を著しく制限している。
既存の手法では、鍵フレームを選択することでこれを緩和するが、それらの強欲な決定は、関連性や多様性の分離された評価と相まって、しばしば局所的最適に陥り、不適切なノイズフレームを誤って選択する。
これらの課題に対処するために、GIFT: Global Irreplaceability Frame Targetingを提案する。
具体的には、まず指向性(Directed Diversity)を導入し、関連性に条件づけられたフレームの特異性を定量化し、統一的不置換性スコアを定式化します。
その後、予算に配慮したリファインメント戦略では、適応的な反復プロセスを採用し、まず、最も非配置性の高いコアセットを確保し、予算が拡大するにつれて、これらの選択に重要な時間的コンテキストを構築するように優先順位をシフトします。
大規模な実験により、GIFTはLLaVA-Video-7Bの長時間ビデオベンチマークにおいて、一様サンプリングと比較して12.5%の平均的な改善を達成している。
関連論文リスト
- Adaptive Greedy Frame Selection for Long Video Understanding [11.923839324117674]
大規模視覚言語モデル(VLM)は、長ビデオ質問応答にますます応用されている。
推論は入力フレームの数と結果の視覚トークンによってボトルネックとなることが多い。
固定フレーム予算下でのクエリ関連性とセマンティックな表現性を協調的に最適化する問合せ適応型グレディフレーム選択法を提案する。
論文 参考訳(メタデータ) (2026-03-20T17:55:32Z) - FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing [97.35186681023025]
FFP-300Kは、720p解像度と81フレームの高忠実度ビデオペアの大規模データセットである。
本稿では,第1フレームの外観維持とソース映像の動作保存の緊張を解消する,真の誘導不要なFFPのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T01:46:22Z) - A.I.R.: Enabling Adaptive, Iterative, and Reasoning-based Frame Selection For Video Question Answering [15.220013605396396]
A.I.R.はAdaptive, Iterative, Reasoningベースのフレーム選択のためのトレーニング不要のアプローチである。
我々は、複雑なクエリに対して深い意味解析を行うために、強力な視覚言語モデル(VLM)を活用している。
提案手法は基礎VLMの性能を大幅に向上させ,計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-06T01:51:13Z) - LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning [73.90466023069125]
ビデオクリップに適応的にズームイン可能なモデルであるLOVE-R1を提案する。
モデルはまず、密度の高いサンプルフレームが提供されるが、小さな解像度で提供される。
空間的詳細が必要な場合、大きなフレーム解像度で興味のあるクリップを拡大することができる。
論文 参考訳(メタデータ) (2025-09-29T13:43:55Z) - Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [24.337139909108117]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。