論文の概要: FrameOracle: Learning What to See and How Much to See in Videos
- arxiv url: http://arxiv.org/abs/2510.03584v1
- Date: Sat, 04 Oct 2025 00:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.130919
- Title: FrameOracle: Learning What to See and How Much to See in Videos
- Title(参考訳): FrameOracle:ビデオで何を見るか、どのくらい見るかを学ぶ
- Authors: Chaoyu Li, Tianzhi Li, Fei Tao, Zhenyu Zhao, Ziqian Wu, Maozheng Zhao, Juntong Song, Cheng Niu, Pooyan Fazli,
- Abstract要約: FrameOracleは、どのフレームが与えられたクエリに最も関連があるかを予測します。
16フレームの入力を平均10.4フレームに削減するが、精度は低下しない。
精度を1.4%向上し、スケーラブルなビデオ理解のための最先端の効率と精度のトレードオフを実現する。
- 参考スコア(独自算出の注目度): 9.701752460244526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-language models (VLMs) have advanced video understanding, but their performance is limited by the number of input frames they can process. Existing frame sampling strategies, such as uniform or fixed-budget selection, often fail to adapt to variations in information density or task complexity, resulting in inefficiency and information loss. To address this, we present FrameOracle, a lightweight and plug-and-play module that predicts both (1) which frames are most relevant to a given query and (2) how many frames are needed. FrameOracle is trained using a four-stage curriculum, with the first three stages relying on weak proxy signals such as cross-modal similarity. In the final stage, it leverages stronger supervision from a new dataset we introduce, FrameOracle-41K, the first large-scale VideoQA collection to provide keyframe annotations specifying the minimal set of frames required to answer each question. Extensive experiments across five VLMs and six benchmarks demonstrate that FrameOracle reduces 16-frame inputs to an average of 10.4 frames without any loss in accuracy. When starting from 64-frame candidates, it reduces the input to an average of 13.9 frames while improving accuracy by 1.4%, achieving state-of-the-art efficiency-accuracy trade-offs for scalable video understanding.
- Abstract(参考訳): 視覚言語モデル(VLM)は高度な映像理解を持つが、その性能は処理可能な入力フレームの数によって制限される。
均一または固定予算選択のような既存のフレームサンプリング戦略は、しばしば情報密度やタスクの複雑さの変化に適応できず、非効率性や情報損失をもたらす。
これを解決するために、FrameOracleという軽量でプラグアンドプレイなモジュールを紹介します。これは(1)どのフレームが与えられたクエリに最も関連しているか、(2)何フレームが必要かを予測する。
FrameOracleは4段階のカリキュラムを使ってトレーニングされており、最初の3段階はクロスモーダルな類似性のような弱いプロキシ信号に依存している。
最終段階では、私たちが紹介した新しいデータセット、FrameOracle-41Kから、より強力な監視を活用する。これは、各質問に答えるために必要な最小限のフレームセットを指定するキーフレームアノテーションを提供する最初の大規模ビデオQAコレクションである。
5つのVLMと6つのベンチマークにわたる大規模な実験は、FrameOracleが16フレームの入力を平均10.4フレームに減らし、精度を損なわないことを示した。
64フレームの候補から始めると、入力を平均13.9フレームに削減し、精度を1.4%向上させ、スケーラブルなビデオ理解のための最先端の効率と精度のトレードオフを達成する。
関連論文リスト
- LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning [73.90466023069125]
ビデオクリップに適応的にズームイン可能なモデルであるLOVE-R1を提案する。
モデルはまず、密度の高いサンプルフレームが提供されるが、小さな解像度で提供される。
空間的詳細が必要な場合、大きなフレーム解像度で興味のあるクリップを拡大することができる。
論文 参考訳(メタデータ) (2025-09-29T13:43:55Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Improving LLM Video Understanding with 16 Frames Per Second [33.70837005629285]
既存の手法では、フレーム毎秒(FPS)$leqslant$2の固定低フレームレートでサンプリングされた画像から抽出された静的な特徴に頼っている。
フレームレートを16FPSに増やし、各1秒のクリップ内で視覚トークンを圧縮することにより、F-16はキーセマンティック情報を保持しながら、動的視覚特徴を効率的にキャプチャする。
論文 参考訳(メタデータ) (2025-03-18T06:48:08Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - Frame-Voyager: Learning to Query Frames for Video Large Language Models [33.84793162102087]
ビデオ大言語モデル (Video-LLMs) はビデオ理解タスクにおいて顕著な進歩を遂げている。
フレームの一様サンプリングやテキストフレーム検索のような既存のフレーム選択アプローチでは、ビデオ内の情報密度の変動を考慮できない。
タスクの与えられたテキストクエリに基づいて,情報フレームの組み合わせを問合せする Frame-Voyager を提案する。
論文 参考訳(メタデータ) (2024-10-04T08:26:06Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - OCSampler: Compressing Videos to One Clip with Single-step Sampling [82.0417131211353]
本稿では,OCSampler というフレームワークを提案する。
我々の基本的な動機は、効率的なビデオ認識タスクは、フレームをシーケンシャルに拾うのではなく、シーケンス全体を一度に処理することにある。
論文 参考訳(メタデータ) (2022-01-12T09:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。