論文の概要: APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval
- arxiv url: http://arxiv.org/abs/2506.04953v1
- Date: Thu, 05 Jun 2025 12:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.694638
- Title: APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval
- Title(参考訳): APVR:Adaptive Pivot Visual Information Retrievalによる長時間のビデオ理解
- Authors: Hong Gao, Yiming Bao, Xuezhan Tu, Bin Zhong, Minling Zhang,
- Abstract要約: APVRは、階層的な視覚情報検索を通じてメモリウォール制限に対処する、トレーニング不要のフレームワークである。
Pivot Frame Retrievalはセマンティック拡張とマルチモーダル信頼スコアを採用し、セマンティックなビデオフレームを識別する。
Pivot Token Retrievalは、ピボットフレーム内でクエリ対応のアテンション駆動トークン選択を実行する。
- 参考スコア(独自算出の注目度): 41.11791414971868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current video-based multimodal large language models struggle with hour-level video understanding due to computational constraints and inefficient information extraction from extensive temporal sequences. We propose APVR (Adaptive Pivot Visual information Retrieval), a training-free framework that addresses the memory wall limitation through hierarchical visual information retrieval. APVR operates via two complementary components: Pivot Frame Retrieval employs semantic expansion and multi-modal confidence scoring to identify semantically relevant video frames, while Pivot Token Retrieval performs query-aware attention-driven token selection within the pivot frames. This dual granularity approach enables processing of hour-long videos while maintaining semantic fidelity. Experimental validation on LongVideoBench and VideoMME demonstrates significant performance improvements, establishing state-of-the-art results for not only training-free but also training-based approaches while providing plug-and-play integration capability with existing MLLM architectures.
- Abstract(参考訳): 現在のビデオベースマルチモーダル大言語モデルは、時間レベルのビデオ理解に苦慮している。
本稿では,階層的視覚情報検索によるメモリウォール制限に対処するトレーニングフリーのフレームワークであるAPVRを提案する。
APVRは2つの補完的なコンポーネントを介して動作する: Pivot Frame Retrievalはセマンティック拡張とマルチモーダル信頼スコアを使用してセマンティック関連ビデオフレームを識別し、Pivot Token Retrievalはピボットフレーム内でクエリ対応のアテンション駆動トークン選択を実行する。
この二重粒度アプローチは、意味的忠実性を維持しながら、1時間ビデオの処理を可能にする。
LongVideoBench と VideoMME の実験的検証では,既存の MLLM アーキテクチャとプラグイン・アンド・プレイの統合機能を提供しながら,トレーニングフリーだけでなくトレーニングベースアプローチにも最先端の成果が得られた。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。