論文の概要: Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2512.04000v1
- Date: Wed, 03 Dec 2025 17:36:06 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:14:33.902894
- Title: Divide, then Ground: Adapting Frame Selection to Query Types for Long-Form Video Understanding
- Title(参考訳): Divide, then Ground: 長いビデオ理解のためのクエリタイプにフレーム選択を適用する
- Authors: Jialuo Li, Bin Li, Jiahao Li, Yan Lu,
- Abstract要約: そこで本研究では,クエリタイプに基づいた学習自由なフレーム選択フレームワークを提案する。
3つの長いビデオ理解ベンチマークの実験は、DIGが既存のベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 21.18266593437182
- License:
- Abstract: The application of Large Multimodal Models (LMMs) to long-form video understanding is constrained by limited context lengths and the computationally prohibitive cost of processing dense video tokens. Consequently, recent research has focused on query-aware frame selection, methods that often incur significant computational overhead. This paper challenges the assumption that such complex search mechanisms are universally necessary. We first identify and validate a query typology distinguishing between global query and localized query. We demonstrate that while uniform sampling is both effective and efficient for global queries, localized queries indeed necessitate query-aware selection for optimal performance. Building on this insight, we propose DIG, a training-free frame selection framework that adapts its strategy based on the query type. Specifically,DIG employs efficient uniform sampling for global queries while activating a specialized pipeline to extract query-relevant frames for localized queries. Experiments on three long-form video understanding benchmarks demonstrate that DIG consistently outperforms existing baselines and robustly improves LMM performance, even when scaling the input frame count to 256.
- Abstract(参考訳): LMM(Large Multimodal Models)の長期ビデオ理解への応用は、コンテキスト長の制限と、高密度ビデオトークン処理の計算的禁止コストによって制限される。
その結果、近年の研究はクエリ対応のフレーム選択に焦点を合わせており、しばしば計算オーバーヘッドが大幅に増大する。
本稿では,このような複雑な探索機構が普遍的に必要であるという仮定に挑戦する。
まず、グローバルクエリとローカライズドクエリを区別したクエリの型を同定し、検証する。
グローバルなクエリでは一様サンプリングが効果的かつ効率的であるのに対して,ローカライズされたクエリは,最適なクエリアウェアの選択を必要とすることが実証された。
この知見に基づいて,クエリタイプに基づいてその戦略を適応する,トレーニング不要なフレーム選択フレームワークであるDIGを提案する。
具体的には、グローバルクエリの効率的な一様サンプリングと、ローカルクエリのクエリ関連フレーム抽出のための特別なパイプラインのアクティベートを実現している。
3つの長文ビデオ理解ベンチマークの実験により、DIGは既存のベースラインを一貫して上回り、入力フレームを256にスケーリングしてもLMM性能を安定的に向上することを示した。
関連論文リスト
- Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - POQD: Performance-Oriented Query Decomposer for Multi-vector retrieval [8.05982973499578]
Performance-Oriented Query Decomposer (POQD)は、Multi-Retrieval(MVR)のための新しいクエリ分解フレームワークである。
POQDは、Retrieval-Augmented Generation (RAG)システムのような任意の検索ベースのシステムにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-05-25T15:31:52Z) - Logic-in-Frames: Dynamic Keyframe Search via Visual Semantic-Logical Verification for Long Video Understanding [23.022070084937603]
本稿では,視覚意味論理探索のパラダイムの下で選択を再構成する意味論的検索フレームワークを提案する。
提案手法は,キーフレーム選択の指標を手動でアノテートしたベンチマーク上で,新たなSOTA性能を確立する。
論文 参考訳(メタデータ) (2025-03-17T13:07:34Z) - Action tube generation by person query matching for spatio-temporal action detection [0.0]
方法は、IoUベースのリンクやクリップ分割のような後処理ステップに頼ることなく、オリジナルビデオからアクションチューブを生成する。
提案手法では,各フレームに問合せに基づく検出(DETR)を適用し,同一人物をフレーム間でリンクするDETRクエリとマッチングする。
アクションクラスはQMMマッチングから得られたクエリのシーケンスを用いて予測され、単一のクリップよりも長いビデオから可変長の入力が可能になる。
論文 参考訳(メタデータ) (2025-03-17T09:26:06Z) - Bridging Information Asymmetry in Text-video Retrieval: A Data-centric Approach [56.610806615527885]
テキストビデオ検索(TVR)における重要な課題は、ビデオとテキスト間の情報非対称性である。
本稿では,このギャップを埋めるために,テキスト表現を豊かにすることで,映像コンテンツの豊かさに合わせたデータ中心のフレームワークを提案する。
本稿では,最も関連性が高く多様なクエリを識別し,計算コストを低減し,精度を向上するクエリ選択機構を提案する。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - JoinGym: An Efficient Query Optimization Environment for Reinforcement
Learning [58.71541261221863]
結合順序選択(JOS)は、クエリの実行コストを最小化するために結合操作を順序付けする問題である。
木質強化学習(RL)のためのクエリ最適化環境JoinGymを提案する。
JoinGymは内部で、事前計算されたデータセットから中間結果の濃度を調べることで、クエリプランのコストをシミュレートする。
論文 参考訳(メタデータ) (2023-07-21T17:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。