論文の概要: APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval
- arxiv url: http://arxiv.org/abs/2506.04953v2
- Date: Sat, 28 Jun 2025 07:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 15:08:39.549875
- Title: APVR: Hour-Level Long Video Understanding with Adaptive Pivot Visual Information Retrieval
- Title(参考訳): APVR:Adaptive Pivot Visual Information Retrievalによる長時間のビデオ理解
- Authors: Hong Gao, Yiming Bao, Xuezhen Tu, Bin Zhong, Minling Zhang,
- Abstract要約: 現在の大規模言語モデル(LM)は時間レベルのビデオ理解に苦慮している。
bftextAdaptive textbfPivot MLbfVisual information textbfRetrieval (textbfAPVR)は、十分に重要な視覚情報を階層的に検索し保持する、トレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 41.81696346270799
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multimodal large language models (MLLMs) struggle with hour-level video understanding, facing significant challenges not only in modeling the substantial information volume of long videos but also in overcoming the memory wall and resource constraints during both training and inference. Although recent training-free approaches have alleviated resource demands by compressing visual features, their reliance on incomplete visual information limits the performance potential. To address these limitations, we propose \textbf{A}daptive \textbf{P}ivot \textbf{V}isual information \textbf{R}etrieval (\textbf{APVR}), a training-free framework that hierarchically retrieves and retains sufficient and important visual information. It breakthroughs the memory wall limitation via two complementary components: Pivot Frame Retrieval employs query expansion and iterative spatio-semantic confidence scoring to identify relevant video frames, and Pivot Token Retrieval performs query-aware attention-driven token selection within up to 1024 pivot frames. This dual granularity approach enables the processing of hour-long videos while maintaining semantic fidelity. Experimental validations demonstrate significant performance improvements, achieving 64.9\% on LongVideoBench and 68.4\% on VideoMME, which are state-of-the-art results for both training-free and training-based approaches. Meanwhile, our method provides plug-and-play integration capability with existing MLLM architectures.
- Abstract(参考訳): 現在のマルチモーダル大言語モデル(MLLM)は、時間レベルのビデオ理解に苦慮しており、長いビデオの膨大な情報量をモデル化するだけでなく、トレーニングと推論の両方においてメモリウォールとリソース制約を克服する上でも大きな課題に直面している。
最近のトレーニングフリーアプローチは、視覚的特徴を圧縮することで、リソース要求を軽減しているが、不完全な視覚情報に依存しているため、性能のポテンシャルは制限されている。
これらの制約に対処するため、我々は、十分なかつ重要な視覚情報を階層的に検索し保持するトレーニング不要のフレームワークである、トレーニングなしのフレームワークである、トレーニングなしのフレームワークである \textbf{A}daptive \textbf{P}ivot \textbf{V}isual information \textbf{R}etrieval (\textbf{APVR})を提案する。
Pivot Frame Retrievalは、クエリ拡張と反復時空間信頼スコアを採用して、関連するビデオフレームを特定し、Pivot Token Retrievalは最大1024のピボットフレーム内でクエリ対応の注意駆動トークン選択を実行する。
この二重粒度アプローチは、意味的忠実性を維持しつつ、1時間ビデオの処理を可能にする。
実験による検証では、LongVideoBenchで64.9\%、VideoMMEで68.4\%、トレーニングフリーとトレーニングベースの両方のアプローチで最先端の結果が得られた。
一方,本手法は既存のMLLMアーキテクチャとプラグイン・アンド・プレイの統合機能を提供する。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding [14.464718780172582]
タスク対応の階層型Q-FormerベースのフレームワークであるHierarQを導入する。
ビデオ理解にタスク認識を組み込むために,軽量な2ストリーム言語誘導機能変調器を導入する。
ビデオ理解、質問応答、キャプションタスクにわたる10の動画ベンチマークの大規模な評価は、HierarQの最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-03-11T16:21:23Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。