論文の概要: FOCUS: Efficient Keyframe Selection for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2510.27280v1
- Date: Fri, 31 Oct 2025 08:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.040028
- Title: FOCUS: Efficient Keyframe Selection for Long Video Understanding
- Title(参考訳): FOCUS: 長いビデオ理解のための効率的なキーフレーム選択
- Authors: Zirui Zhu, Hailun Xu, Yang Luo, Yong Liu, Kanchan Sarkar, Zhenheng Yang, Yang You,
- Abstract要約: マルチモーダル大言語モデル(LMLM)は画像とビデオフレームを視覚トークンとして表現する。
FOCUS(Frame-Optimistic Confidence Upbound Selection)は、厳格なトークン予算の下でフレームを選択するモデルに依存しない選択モジュールである。
20分以上のビデオでは、LongVideoBenchingベンチマークで11.9%の精度向上を達成した。
- 参考スコア(独自算出の注目度): 26.44459739499484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) represent images and video frames as visual tokens. Scaling from single images to hour-long videos, however, inflates the token budget far beyond practical limits. Popular pipelines therefore either uniformly subsample or apply keyframe selection with retrieval-style scoring using smaller vision-language models. However, these keyframe selection methods still rely on pre-filtering before selection to reduce the inference cost and can miss the most informative moments. We propose FOCUS, Frame-Optimistic Confidence Upper-bound Selection, a training-free, model-agnostic keyframe selection module that selects query-relevant frames under a strict token budget. FOCUS formulates keyframe selection as a combinatorial pure-exploration (CPE) problem in multi-armed bandits: it treats short temporal clips as arms, and uses empirical means and Bernstein confidence radius to identify informative regions while preserving exploration of uncertain areas. The resulting two-stage exploration-exploitation procedure reduces from a sequential policy with theoretical guarantees, first identifying high-value temporal regions, then selecting top-scoring frames within each region On two long-video question-answering benchmarks, FOCUS delivers substantial accuracy improvements while processing less than 2% of video frames. For videos longer than 20 minutes, it achieves an 11.9% gain in accuracy on LongVideoBench, demonstrating its effectiveness as a keyframe selection method and providing a simple and general solution for scalable long-video understanding with MLLMs.
- Abstract(参考訳): MLLM(Multimodal large language model)は、画像とビデオフレームを視覚トークンとして表現する。
しかし、1枚の画像から1時間のビデオにスケールすると、トークンの予算は実用的限界を超えて膨らむ。
したがって、人気のあるパイプラインは、一様にサブサンプリングするか、より小さな視覚言語モデルを用いて、検索スタイルのスコアリングでキーフレームの選択を適用する。
しかしながら、これらのキーフレームの選択方法は、推論コストを削減し、最も有意義な瞬間を見逃すために、まだ選択前の事前フィルタリングに依存している。
FOCUS, Frame-Optimistic Confidence upper-bound Selection, a training-free, model-agnostic keyframe selection module that selects query-relevant frames under a strict token budget。
FOCUSは、鍵フレームの選択を複合純粋探索(CPE)問題として定式化し、短い時間的クリップをアームとして扱い、経験的手段とベルンシュタイン信頼半径を用いて、不確実な領域を探索しながら情報的領域を識別する。
結果として得られた2段階の探索・探索手順は、理論的な保証付きシーケンシャルポリシーから減少し、まずは高価値の時間領域を特定し、次に各領域のトップスコアフレームを選択する。
20分以上のビデオでは、LongVideoBenchで11.9%の精度向上を実現し、キーフレームの選択方法としての有効性を示し、MLLMによるスケーラブルな長ビデオ理解のためのシンプルで一般的なソリューションを提供する。
関連論文リスト
- K-frames: Scene-Driven Any-k Keyframe Selection for long video understanding [38.06179287702453]
Kフレームは、時間的連続性を保存するシーン駆動の選択のための新しいパラダイムである。
個々のフレームを選択する代わりに、Kフレームは意味的に一貫性のあるクエリ関連クリップを予測する。
Kフレームは、様々なスケールで選択するための効果的な、解釈可能な、プラグアンドプレイソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-14T06:23:22Z) - From Frames to Clips: Efficient Key Clip Selection for Long-Form Video Understanding [43.82717677801915]
ビデオ大言語モデル(VLM)は様々な視覚言語タスクにおいて顕著な成果を上げている。
生のビデオフレームから生成される膨大な数の視覚トークンが、モデルのコンテキストウィンドウを消費する。
分離されたキーフレームからキークリップへの選択を、短い時間的コヒーレントなセグメントに拡張することで、ビデオの理解が向上することを示す。
論文 参考訳(メタデータ) (2025-10-02T17:43:01Z) - Threading Keyframe with Narratives: MLLMs as Strong Long Video Comprehenders [62.58375366359421]
長いビデオ理解のためのマルチモーダル大言語モデル(MLLM)は依然として難しい問題である。
伝統的な一様サンプリングは、無関係な内容の選択につながる。
数千フレームの訓練後のMLLMは、かなりの計算負担を課す。
本研究では,物語付きスレッディング(Nar-KFC)を提案する。
論文 参考訳(メタデータ) (2025-05-30T03:04:28Z) - BOLT: Boost Large Vision-Language Model Without Training for Long-form Video Understanding [51.49345400300556]
大規模ビデオ言語モデル (VLM) は様々なビデオ理解タスクにおいて有望な進歩を示した。
均一なフレームサンプリングのような伝統的なアプローチは、必然的に無関係なコンテンツにリソースを割り当てる。
本稿では,フレーム選択戦略の総合的研究を通じて,付加的なトレーニングを伴わずに大規模VLMをブーストする方法であるBOLTを紹介する。
論文 参考訳(メタデータ) (2025-03-27T13:18:40Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - The Devil is in Temporal Token: High Quality Video Reasoning Segmentation [68.33080352141653]
ビデオ推論の方法は、ビデオ内のオブジェクトを表現するために単一の特別なトークンに大きく依存する。
エンドツーエンドの動画推論セグメンテーション手法であるVRS-HQを提案する。
提案手法の強い時間的推論とセグメンテーション能力について検討した。
論文 参考訳(メタデータ) (2025-01-15T03:17:24Z) - Key Frame Extraction with Attention Based Deep Neural Networks [0.0]
本稿では,注目層を持つディープオートエンコーダモデルを用いて,ディープラーニングに基づく検出手法を提案する。
提案手法は,まずオートエンコーダのエンコーダ部を用いて映像フレームから特徴を抽出し,k-meansアルゴリズムを用いて特徴と類似フレームをグループ化する。
本手法は,TVSUMクラスタリングビデオデータセットを用いて評価し,0.77の分類精度を達成し,既存の多くの手法よりも高い成功率を示した。
論文 参考訳(メタデータ) (2023-06-21T15:09:37Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。