論文の概要: LDDR: Linear-DPP-Based Dynamic-Resolution Frame Sampling for Video MLLMs
- arxiv url: http://arxiv.org/abs/2605.11477v1
- Date: Tue, 12 May 2026 03:45:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.555011
- Title: LDDR: Linear-DPP-Based Dynamic-Resolution Frame Sampling for Video MLLMs
- Title(参考訳): LDDR:ビデオMLLM用リニアDPP型ダイナミックリゾリューションフレームサンプリング
- Authors: Jingfeng Chen, Jiawen Qian, Wendi Deng, Yinuo Guo, Jiaqi Yu, Sicong Leng, Raghuveer Thirukovalluru, Bhuwan Dhingra,
- Abstract要約: マルチモーダルな大言語モデルにおけるビデオ理解には、限られた視覚的予算の下で、長い冗長なビデオから情報的フレームを選択する必要がある。
LDDR, トレーニングフリー, プラグアンドプレイ, 予算対応のビデオフレームサンプリングフレームワークを提案する。
LDDRは、タスク条件付き特徴空間でDPP(Determinantal Point Process)フレームの選択を行う。
- 参考スコア(独自算出の注目度): 18.827346593374354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video understanding in multimodal large language models requires selecting informative frames from long, redundant videos under limited visual-token budgets. Existing methods often rely on uniform sampling, point-wise relevance scoring, chunk-wise selection, or agentic exploration, which either miss global dependencies or introduce substantial overhead. We propose LDDR (Linear DPP-Based Dynamic Resolution), a training-free, plug-and-play, and budget-aware video frame sampling framework. LDDR performs query-aware Determinantal Point Process (DPP) frame selection in a task-conditioned feature space, achieving a 3x runtime speedup over standard DPP baselines. It further introduces a Group DPP importance metric to guide frame retention and dynamic resolution allocation, assigning more tokens to informative, non-redundant frames while downscaling or pruning less useful ones. Across four video benchmarks spanning short-, medium-, and long-range videos, LDDR consistently outperforms the next-best baselines, achieving gains of 2.5 points under budget-constrained settings and 1.6 points in high-budget scenarios. These improvements are consistently observed across multiple MLLM backbones, including both open- and closed-source models. Qualitative analysis confirms that relevant frames are selected and allocated a higher budget, facilitating improved video understanding.
- Abstract(参考訳): マルチモーダルな大言語モデルにおけるビデオ理解には、限られた視覚的予算の下で、長い冗長なビデオから情報的フレームを選択する必要がある。
既存の方法は、一様サンプリング、ポイントワイズ関連スコア、チャンクワイズ選択、あるいはエージェント探索に頼っていることが多い。
本稿では,LDDR(Linear DPP-Based Dynamic Resolution)を提案する。
LDDRは、タスク条件付き機能空間において、クエリ対応のDPP(Determinantal Point Process)フレーム選択を実行し、標準のDPPベースラインよりも3倍のランタイム高速化を実現する。
さらに、グループDPPの重要度基準を導入し、フレームの保持と動的解像度割り当てをガイドし、より多くのトークンを情報的、非冗長なフレームに割り当てると同時に、ダウンスケールしたり、あまり役に立たないフレームをプルーニングする。
短距離、中距離、長距離の4つのビデオベンチマークでLDDRは、予算制約のある設定で2.5ポイント、高予算のシナリオで1.6ポイントを達成し、常に次のベテランベースラインを上回っている。
これらの改善は、オープンソースモデルとクローズドソースモデルの両方を含む、複数のMLLMバックボーンで一貫して観察される。
質的分析により、関連フレームが選択され、より高い予算が割り当てられ、ビデオ理解の改善が促進される。
関連論文リスト
- Query-Conditioned Evidential Keyframe Sampling for MLLM-Based Long-Form Video Understanding [21.306038832082553]
MLLM(Multimodal Large Language Models)は,ビデオ質問応答において高い性能を示した。
ロングフォームビデオへのそれらの応用は、コンテキスト長と計算コストの制限によって制限される。
本稿では,情報理論に基づくエビデンス駆動サンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-01T15:02:50Z) - GIFT: Global Irreplaceability Frame Targeting for Efficient Video Understanding [63.62445065977448]
GIFT: Global Irreplaceability Frame Targetingはトレーニング不要のフレームワークで、固有の非配置性を評価してフレームを選択する。
GIFTは,LLaVA-Video-7Bの長文ビデオベンチマークにおいて,一様サンプリングに比べて最大12.5%向上したことを示す。
論文 参考訳(メタデータ) (2026-03-26T06:21:41Z) - FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。
この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。
Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。
従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文 参考訳(メタデータ) (2025-09-28T17:59:43Z) - Q-Frame: Query-aware Frame Selection and Multi-Resolution Adaptation for Video-LLMs [13.306662159600677]
適応型フレーム選択とマルチテンポラリスケーリングのための新しいアプローチであるビデオQFrameを紹介する。
Q-Frameは、CLIPのようなテキスト画像マッチングネットワークによって生成されたトレーニング不要のプラグイン・アンド・プレイ戦略を採用している。
ベンチマークデータセットの広範な実験を通じて,Q-Frameの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-27T11:30:51Z) - Moment Sampling in Video LLMs for Long-Form Video QA [22.638644170177013]
モーメントサンプリング(moment sample)とは、モデルが最も関係のあるフレームを質問の文脈に応じて選択できるモデルに依存しないアプローチである。
与えられた質問に最も関係のあるフレームに焦点をあてることで、ビデオLLMにおける長大なビデオQA性能を向上させることができる。
論文 参考訳(メタデータ) (2025-06-18T03:23:56Z) - Temporal Preference Optimization for Long-Form Video Understanding [63.196246578583136]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。