論文の概要: Adaptive Greedy Frame Selection for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2603.20180v1
- Date: Fri, 20 Mar 2026 17:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.276825
- Title: Adaptive Greedy Frame Selection for Long Video Understanding
- Title(参考訳): 長時間ビデオ理解のための適応的グレディフレーム選択法
- Authors: Yuning Huang, Fengqing Zhu,
- Abstract要約: 大規模視覚言語モデル(VLM)は、長ビデオ質問応答にますます応用されている。
推論は入力フレームの数と結果の視覚トークンによってボトルネックとなることが多い。
固定フレーム予算下でのクエリ関連性とセマンティックな表現性を協調的に最適化する問合せ適応型グレディフレーム選択法を提案する。
- 参考スコア(独自算出の注目度): 11.923839324117674
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large vision--language models (VLMs) are increasingly applied to long-video question answering, yet inference is often bottlenecked by the number of input frames and resulting visual tokens. Naive sparse sampling can miss decisive moments, while purely relevance-driven selection frequently collapses onto near-duplicate frames and sacrifices coverage of temporally distant evidence. We propose a question-adaptive greedy frame selection method that jointly optimizes query relevance and semantic representativeness under a fixed frame budget. Our approach constructs a 1~FPS candidate pool (capped at 1000) with exact timestamp alignment, embeds candidates in two complementary spaces (SigLIP for question relevance and DINOv2 for semantic similarity), and selects frames by greedily maximizing a weighted sum of a modular relevance term and a facility-location coverage term. This objective is normalized, monotone, and submodular, yielding a standard (1-1/e) greedy approximation guarantee. To account for question-dependent trade-offs between relevance and coverage, we introduce four preset strategies and a lightweight text-only question-type classifier that routes each query to its best-performing preset. Experiments on MLVU show consistent accuracy gains over uniform sampling and a strong recent baseline across frame budgets, with the largest improvements under tight budgets.
- Abstract(参考訳): 大規模な視覚言語モデル(VLM)は、長ビデオの質問応答に適用されることが多いが、推論は入力フレームの数と視覚トークンの結果によってボトルネックとなることが多い。
裸のスパースサンプリングは決定的な瞬間を見逃しかねないが、純粋に関連性によって引き起こされる選択は、ほぼ重複したフレームにしばしば崩壊し、時間的に離れた証拠のカバレッジを犠牲にする。
固定フレーム予算の下で,問合せの妥当性と意味的表現性を協調的に最適化する問合せ適応型グレディフレーム選択法を提案する。
提案手法は, 正確なタイムスタンプアライメントを備えた1〜FPS候補プール(1000)を構築し, 2つの相補的空間に候補を埋め込む(疑問関連性のためのSigLIPと意味的類似性のためのDINOv2)。
この目的は正規化され、単調で、準モジュラであり、標準(1-1/e)グリーディ近似を保証する。
関連性とカバレッジの間の質問依存のトレードオフを考慮し、4つのプリセット戦略と、各クエリを最高のパフォーマンスのプリセットにルーティングする軽量テキストのみの質問型分類器を導入する。
MLVUの実験では、一様サンプリングよりも一貫した精度が向上し、フレーム予算全体のベースラインが強化された。
関連論文リスト
- Event-Anchored Frame Selection for Effective Long-Video Understanding [67.56884568828508]
Event-Anchored Frame Selection (EFS)は階層的なイベント認識パイプラインである。
トレーニング不要のプラグイン・アンド・プレイモジュールとして、EFSは既製のLVLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2026-03-01T08:25:37Z) - Wavelet-based Frame Selection by Detecting Semantic Boundary for Long Video Understanding [43.587729230845525]
現在のメソッドは、通常、与えられたクエリに高い関連性を持つフレームを選択する。
トレーニング不要なフレームワークであるセマンティック境界(WFS-SB)の検出によるウェーブレットベースのフレーム選択を提案する。
WFS-SBはLVLMの性能を大幅に向上させ、ビデオMMEでは5.5%、MLVUでは9.5%、LongVideoBenchでは6.2%の精度向上を実現した。
論文 参考訳(メタデータ) (2026-02-28T07:18:07Z) - Improving Video Question Answering through query-based frame selection [15.416301612152004]
Video Question Answering (VideoQA) モデルは、視聴覚コンテンツに対する理解とインタラクションを強化する。
重い計算要求のため、ビデオQAのほとんどの大きなビジュアル言語モデル(VLM)は、動画を一様にサンプリングすることで固定数のフレームに依存している。
本稿では,サブモジュール相互情報(SMI)関数に基づいて,質問に関連のある新しい問合せベースのフレーム選択を提案する。
論文 参考訳(メタデータ) (2026-01-12T12:10:20Z) - FOCUS: Efficient Keyframe Selection for Long Video Understanding [26.44459739499484]
マルチモーダル大言語モデル(LMLM)は画像とビデオフレームを視覚トークンとして表現する。
FOCUS(Frame-Optimistic Confidence Upbound Selection)は、厳格なトークン予算の下でフレームを選択するモデルに依存しない選択モジュールである。
20分以上のビデオでは、LongVideoBenchingベンチマークで11.9%の精度向上を達成した。
論文 参考訳(メタデータ) (2025-10-31T08:41:13Z) - K-frames: Scene-Driven Any-k Keyframe Selection for long video understanding [38.06179287702453]
Kフレームは、時間的連続性を保存するシーン駆動の選択のための新しいパラダイムである。
個々のフレームを選択する代わりに、Kフレームは意味的に一貫性のあるクエリ関連クリップを予測する。
Kフレームは、様々なスケールで選択するための効果的な、解釈可能な、プラグアンドプレイソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-14T06:23:22Z) - LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning [73.90466023069125]
ビデオクリップに適応的にズームイン可能なモデルであるLOVE-R1を提案する。
モデルはまず、密度の高いサンプルフレームが提供されるが、小さな解像度で提供される。
空間的詳細が必要な場合、大きなフレーム解像度で興味のあるクリップを拡大することができる。
論文 参考訳(メタデータ) (2025-09-29T13:43:55Z) - ReFoCUS: Reinforcement-guided Frame Optimization for Contextual Understanding [52.050036778325094]
ReFoCUS(Reinforcement-guided Frame Optimization for Contextual UnderStanding)は、新しいフレームレベルのポリシー最適化フレームワークである。
ReFoCUSは、参照LMMから派生した報酬信号を用いて、フレームに対するモデル固有の嗜好を反映して、強化学習を通じてフレーム選択ポリシーを学習する。
提案手法は複数のビデオQAベンチマークにおける推論性能を継続的に改善する。
論文 参考訳(メタデータ) (2025-06-02T03:08:07Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。