論文の概要: KTV: Keyframes and Key Tokens Selection for Efficient Training-Free Video LLMs
- arxiv url: http://arxiv.org/abs/2602.03615v1
- Date: Tue, 03 Feb 2026 15:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.528966
- Title: KTV: Keyframes and Key Tokens Selection for Efficient Training-Free Video LLMs
- Title(参考訳): KTV:キーフレームとキートークンの選択
- Authors: Baiyang Song, Jun Peng, Yuxin Zhang, Guangyao Chen, Feidiao Yang, Jianyuan Guo,
- Abstract要約: MLVU-Testベンチマークでは,10800フレームの60分ビデオに対して504の視覚トークンしか使用できず,44.8%の精度を実現している。
bfKTV - 効率的なトレーニングテキストビデオ理解のための新しい2段階フレームワーク。
MLVU-Testベンチマークでは,10800フレームの60分ビデオに対して504の視覚トークンしか使用できず,44.8%の精度を実現している。
- 参考スコア(独自算出の注目度): 30.462124584199135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training-free video understanding leverages the strong image comprehension capabilities of pre-trained vision language models (VLMs) by treating a video as a sequence of static frames, thus obviating the need for costly video-specific training. However, this paradigm often suffers from severe visual redundancy and high computational overhead, especially when processing long videos. Crucially, existing keyframe selection strategies, especially those based on CLIP similarity, are prone to biases and may inadvertently overlook critical frames, resulting in suboptimal video comprehension. To address these significant challenges, we propose \textbf{KTV}, a novel two-stage framework for efficient and effective training-free video understanding. In the first stage, KTV performs question-agnostic keyframe selection by clustering frame-level visual features, yielding a compact, diverse, and representative subset of frames that mitigates temporal redundancy. In the second stage, KTV applies key visual token selection, pruning redundant or less informative tokens from each selected keyframe based on token importance and redundancy, which significantly reduces the number of tokens fed into the LLM. Extensive experiments on the Multiple-Choice VideoQA task demonstrate that KTV outperforms state-of-the-art training-free baselines while using significantly fewer visual tokens, \emph{e.g.}, only 504 visual tokens for a 60-min video with 10800 frames, achieving $44.8\%$ accuracy on the MLVU-Test benchmark. In particular, KTV also exceeds several training-based approaches on certain benchmarks.
- Abstract(参考訳): トレーニングフリーのビデオ理解は、ビデオを静的フレームのシーケンスとして扱うことにより、訓練済みの視覚言語モデル(VLM)の強力なイメージ理解能力を活用する。
しかし、このパラダイムは、特に長時間のビデオ処理において、視覚的冗長性と高い計算オーバーヘッドに悩まされることが多い。
重要なことは、既存のキーフレーム選択戦略(特にCLIPの類似性に基づくもの)はバイアスになりがちであり、必然的に重要なフレームを見落としてしまう可能性がある。
これらの課題に対処するため,学習不要なビデオ理解のための新しい2段階フレームワークである「textbf{KTV}」を提案する。
第1段階では、KTVはフレームレベルの視覚的特徴をクラスタリングし、時間的冗長性を緩和するフレームのコンパクトで多様で代表的なサブセットを生成することで、質問非依存のキーフレーム選択を行う。
第2段階では、KTVは、トークンの重要性と冗長性に基づいて、選択された各キーフレームから冗長または少ない情報トークンをプルーニングすることで、LLMに供給されるトークンの数を大幅に削減する。
Multiple-Choice VideoQAタスクの大規模な実験では、KTVは最先端のトレーニングなしベースラインより優れており、非常に少ないビジュアルトークンである \emph{e g } を使用しており、10800フレームの60分間のビデオに対して504のビジュアルトークンしか使用せず、MLVU-Testベンチマークで44.8\%の精度を実現している。
特に、KTVは特定のベンチマークでトレーニングベースのアプローチを数回上回っている。
関連論文リスト
- FOCUS: Efficient Keyframe Selection for Long Video Understanding [26.44459739499484]
マルチモーダル大言語モデル(LMLM)は画像とビデオフレームを視覚トークンとして表現する。
FOCUS(Frame-Optimistic Confidence Upbound Selection)は、厳格なトークン予算の下でフレームを選択するモデルに依存しない選択モジュールである。
20分以上のビデオでは、LongVideoBenchingベンチマークで11.9%の精度向上を達成した。
論文 参考訳(メタデータ) (2025-10-31T08:41:13Z) - K-frames: Scene-Driven Any-k Keyframe Selection for long video understanding [38.06179287702453]
Kフレームは、時間的連続性を保存するシーン駆動の選択のための新しいパラダイムである。
個々のフレームを選択する代わりに、Kフレームは意味的に一貫性のあるクエリ関連クリップを予測する。
Kフレームは、様々なスケールで選択するための効果的な、解釈可能な、プラグアンドプレイソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-14T06:23:22Z) - From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - KFFocus: Highlighting Keyframes for Enhanced Video Understanding [33.69757683688046]
KFFocusは,ビデオトークンを効率よく圧縮し,映像フレーム内に存在する情報的コンテキストを強調する手法である。
KFFocusは、コンテキスト関連性に基づいてフレームに様々な凝縮率を割り当てることで、情報コンテンツの詳細を保存しつつ、トークンの冗長性を効率的に低減する。
また,ビデオフレーム間の時間的関係と各フレーム内の空間構造をエンコードするマルチモーダルモデリングモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-12T14:57:03Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
ReTaKeは、ビデオLLMsが8倍のフレーム(最大2048年まで)を処理し、類似のモデルも3~5%縮小し、ビデオMME、MLVU、LongVideoBench、LVBenchなどと競合する。
私たちのコードはhttps://github.com/SCZwangxiao/video-ReTaKe.comで公開されています。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。