論文の概要: VideoLucy: Deep Memory Backtracking for Long Video Understanding
- arxiv url: http://arxiv.org/abs/2510.12422v1
- Date: Tue, 14 Oct 2025 11:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.303453
- Title: VideoLucy: Deep Memory Backtracking for Long Video Understanding
- Title(参考訳): VideoLucy:長いビデオ理解のためのディープメモリバックトラッキング
- Authors: Jialong Zuo, Yongtai Deng, Lingdong Kong, Jingkang Yang, Rui Jin, Yiwei Zhang, Nong Sang, Liang Pan, Ziwei Liu, Changxin Gao,
- Abstract要約: 我々は、長いビデオ理解のためのディープメモリバックトラックフレームワークであるVideoLucyを提案する。
粗いものから細かいものへの人間の再コンパイルプロセスにインスパイアされたVideoLucyは、階層的なメモリ構造で、段階的に粒度が細かい。
VideoLucyは、複数の長いビデオ理解ベンチマークで最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 102.37736560263649
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent studies have shown that agent-based systems leveraging large language models (LLMs) for key information retrieval and integration have emerged as a promising approach for long video understanding. However, these systems face two major challenges. First, they typically perform modeling and reasoning on individual frames, struggling to capture the temporal context of consecutive frames. Second, to reduce the cost of dense frame-level captioning, they adopt sparse frame sampling, which risks discarding crucial information. To overcome these limitations, we propose VideoLucy, a deep memory backtracking framework for long video understanding. Inspired by the human recollection process from coarse to fine, VideoLucy employs a hierarchical memory structure with progressive granularity. This structure explicitly defines the detail level and temporal scope of memory at different hierarchical depths. Through an agent-based iterative backtracking mechanism, VideoLucy systematically mines video-wide, question-relevant deep memories until sufficient information is gathered to provide a confident answer. This design enables effective temporal understanding of consecutive frames while preserving critical details. In addition, we introduce EgoMem, a new benchmark for long video understanding. EgoMem is designed to comprehensively evaluate a model's ability to understand complex events that unfold over time and capture fine-grained details in extremely long videos. Extensive experiments demonstrate the superiority of VideoLucy. Built on open-source models, VideoLucy significantly outperforms state-of-the-art methods on multiple long video understanding benchmarks, achieving performance even surpassing the latest proprietary models such as GPT-4o. Our code and dataset will be made publicly at https://videolucy.github.io
- Abstract(参考訳): 近年,大規模言語モデル(LLM)を利用したエージェントベースシステムによる情報検索と統合が,長期ビデオ理解のための有望なアプローチとして現れている。
しかし、これらのシステムは2つの大きな課題に直面している。
まず、個々のフレームのモデリングと推論を行い、連続するフレームの時間的コンテキストを捉えるのに苦労する。
第二に、高密度フレームレベルのキャプションのコストを低減するために、スパースフレームサンプリングを採用しており、重要な情報を捨てるリスクがある。
これらの制限を克服するため、長いビデオ理解のためのディープメモリバックトラックフレームワークであるVideoLucyを提案する。
粗いものから細かいものへの人間の再コンパイルプロセスにインスパイアされたVideoLucyは、階層的なメモリ構造で、段階的に粒度が細かい。
この構造は、異なる階層の深さにおけるメモリの詳細なレベルと時間的スコープを明確に定義する。
エージェントベースの反復的バックトラッキング機構を通じて、VideoLucyは、自信ある回答を提供するのに十分な情報を集めるまで、ビデオ全体、質問関連深層記憶を体系的にマイニングする。
この設計は、重要な詳細を保存しながら、連続するフレームの効果的な時間的理解を可能にする。
さらに、長いビデオ理解のための新しいベンチマークであるEgoMemを紹介します。
EgoMemは、時間とともに広がる複雑なイベントを理解し、非常に長いビデオできめ細かい詳細をキャプチャするモデルの能力を包括的に評価するように設計されている。
大規模な実験は、VideoLucyの優位性を示している。
オープンソースのモデルに基づいて構築されたVideoLucyは、複数の長いビデオ理解ベンチマークにおいて最先端の手法よりも大幅に優れており、GPT-4oのような最新のプロプライエタリなモデルよりもパフォーマンスが優れている。
私たちのコードとデータセットはhttps://videolucy.github.ioで公開されます。
関連論文リスト
- VideoMiner: Iteratively Grounding Key Frames of Hour-Long Videos via Tree-based Group Relative Policy Optimization [13.234970097206487]
VideoMinerがMulti-Modal Large Language Model(MM-LLMs)で1時間ビデオの理解を学習
キーフレームを正確に検出するために,木に基づくグループ相対的ポリシー最適化であるT-GRPOを強化学習法で導入する。
提案するT-GRPOは, 自発的に推論連鎖を生成するために, 驚くほどのインセンティブを与える。
論文 参考訳(メタデータ) (2025-10-07T15:34:46Z) - Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - Enhancing Long Video Question Answering with Scene-Localized Frame Grouping [19.83545369186771]
現在のMultimodal Large Language Models (MLLMs) は、長いビデオ理解ではよく機能しない。
本稿では,ビデオ質問応答タスクであるSceneQAの新たなシナリオを提案する。
本研究では,個々のフレームを意味的に一貫性のあるシーンフレームに結合する,SLFGと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-05T02:28:58Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges [39.666361965650836]
VideoLLaMBは、長いビデオ理解のためのフレームワークである。
SceneTilingアルゴリズムは、ビデオをコヒーレントなセマンティックユニットに分割する。
VideoLLaMBは1つのNvidia A100 GPUを使用して最大320フレームを処理する。
論文 参考訳(メタデータ) (2024-09-02T08:52:58Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。