論文の概要: VideoAtlas: Navigating Long-Form Video in Logarithmic Compute
- arxiv url: http://arxiv.org/abs/2603.17948v1
- Date: Wed, 18 Mar 2026 17:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.84965
- Title: VideoAtlas: Navigating Long-Form Video in Logarithmic Compute
- Title(参考訳): VideoAtlas:対数計算で長時間の動画をナビゲートする
- Authors: Mohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan,
- Abstract要約: textbfVideoAtlasは、動画を階層的なグリッドとして表現するためのタスクに依存しない環境である。
階層構造により、アクセス深度はビデオ長と対数的にのみ増大する。
ビデオRLMは1時間から10時間に及ぶベンチマークのスケーリングにおいて、最小限の精度の劣化を伴う最も長い時間ロバストな方法である。
- 参考スコア(独自算出の注目度): 3.705718227493618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extending language models to video introduces two challenges: representation, where existing methods rely on lossy approximations, and long-context, where caption- or agent-based pipelines collapse video into text and lose visual fidelity. To overcome this, we introduce \textbf{VideoAtlas}, a task-agnostic environment to represent video as a hierarchical grid that is simultaneously lossless, navigable, scalable, caption- and preprocessing-free. An overview of the video is available at a glance, and any region can be recursively zoomed into, with the same visual representation used uniformly for the video, intermediate investigations, and the agent's memory, eliminating lossy text conversion end-to-end. This hierarchical structure ensures access depth grows only logarithmically with video length. For long-context, Recursive Language Models (RLMs) recently offered a powerful solution for long text, but extending them to visual domain requires a structured environment to recurse into, which \textbf{VideoAtlas} provides. \textbf{VideoAtlas} as a Markov Decision Process unlocks Video-RLM: a parallel Master-Worker architecture where a Master coordinates global exploration while Workers concurrently drill into assigned regions to accumulate lossless visual evidence. We demonstrate three key findings: (1)~logarithmic compute growth with video duration, further amplified by a 30-60\% multimodal cache hit rate arising from the grid's structural reuse. (2)~environment budgeting, where bounding the maximum exploration depth provides a principled compute-accuracy hyperparameter. (3)~emergent adaptive compute allocation that scales with question granularity. When scaling from 1-hour to 10-hour benchmarks, Video-RLM remains the most duration-robust method with minimal accuracy degradation, demonstrating that structured environment navigation is a viable and scalable paradigm for video understanding.
- Abstract(参考訳): 言語モデルをビデオに拡張することは、既存のメソッドが損失の少ない近似に依存する表現と、キャプションやエージェントベースのパイプラインが動画をテキストに分解して視覚的忠実さを失う長いコンテキストの2つの課題をもたらす。
そこで本稿では,映像を階層的グリッドとして表現するタスク非依存環境である‘textbf{VideoAtlas} を導入する。
ビデオの概要は一見可能で、任意の領域に再帰的にズームインすることができ、ビデオ、中間調査、エージェントのメモリに一様に使用されるのと同じ視覚的表現で、損失のあるテキスト変換をエンドツーエンドに排除することができる。
この階層構造により、アクセス深度はビデオ長と対数的にのみ増大する。
長いコンテキストでは、Recursive Language Models (RLMs) は、最近、長いテキストのための強力なソリューションを提供しているが、それらをビジュアルドメインに拡張するには、再帰する構造化された環境が必要であり、それが \textbf{VideoAtlas} が提供する。
Markov Decision Process としての \textbf{VideoAtlas} は Video-RLM をアンロックする。
1)-対数計算の長寿命化,およびグリッドの構造的再利用による30~60 %のマルチモーダルキャッシュヒット率の増幅,の3つの重要な結果を示す。
2) 最大探査深度を境界とする環境予算化は, 原理的計算精度ハイパーパラメータを提供する。
(3) 質問の粒度に応じてスケールする適応的な計算割り当て。
1時間から10時間のベンチマークにスケールする場合、ビデオ-RLMは、最小限の精度の劣化を伴う最も持続時間の浪費法であり、構造化環境ナビゲーションがビデオ理解のための実行可能なスケーラブルなパラダイムであることを実証している。
関連論文リスト
- TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文 参考訳(メタデータ) (2025-10-15T19:14:58Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Encoding and Controlling Global Semantics for Long-form Video Question Answering [40.129800076300434]
我々は、ビデオのグローバルなセマンティクスを効率的に統合するために、状態空間層(SSL)をマルチモーダルトランスフォーマーに導入する。
私たちのSSLには、グローバルなセマンティクスから視覚表現へのフローを制御可能にするゲーティングユニットが含まれています。
長大なビデオQA能力を評価するため,Ego-QAとMAD-QAの2つの新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-05-30T06:10:10Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders Beyond 16 Frames [57.758863967770594]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。