論文の概要: ROVER: Recursive Reasoning Over Videos with Vision-Language Models for Embodied Tasks
- arxiv url: http://arxiv.org/abs/2508.01943v1
- Date: Sun, 03 Aug 2025 22:33:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.125113
- Title: ROVER: Recursive Reasoning Over Videos with Vision-Language Models for Embodied Tasks
- Title(参考訳): ROVER: 身体的タスクのための視覚言語モデルによるビデオの再帰的推論
- Authors: Philip Schroeder, Ondrej Biza, Thomas Weng, Hongyin Luo, James Glass,
- Abstract要約: ROVER(Reasoning Over VidEo Recursively)は、長い水平ビデオの軌跡を短いサブタスクに対応するセグメントに分解できるフレームワークである。
ROVER は OpenX Embodiment ビデオや RoboCasa から派生した新しいデータセットで評価する。
- 参考スコア(独自算出の注目度): 17.308255151767323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have exhibited impressive capabilities across diverse image understanding tasks, but still struggle in settings that require reasoning over extended sequences of camera frames from a video. This limits their utility in embodied settings, which require reasoning over long frame sequences from a continuous stream of visual input at each moment of a task attempt. To address this limitation, we propose ROVER (Reasoning Over VidEo Recursively), a framework that enables the model to recursively decompose long-horizon video trajectories into segments corresponding to shorter subtasks within the trajectory. In doing so, ROVER facilitates more focused and accurate reasoning over temporally localized frame sequences without losing global context. We evaluate ROVER, implemented using an in-context learning approach, on diverse OpenX Embodiment videos and on a new dataset derived from RoboCasa that consists of 543 videos showing both expert and perturbed non-expert trajectories across 27 robotic manipulation tasks. ROVER outperforms strong baselines across three video reasoning tasks: task progress estimation, frame-level natural language reasoning, and video question answering. We observe that, by reducing the number of frames the model reasons over at each timestep, ROVER mitigates hallucinations, especially during unexpected or non-optimal moments of a trajectory. In addition, by enabling the implementation of a subtask-specific sliding context window, ROVER's time complexity scales linearly with video length, an asymptotic improvement over baselines. Demos, code, and data available at: https://rover-vlm.github.io
- Abstract(参考訳): 視覚言語モデル(VLM)は、さまざまな画像理解タスクにまたがって印象的な機能を示してきたが、ビデオからカメラフレームの長いシーケンスの推論を必要とする設定では依然として苦戦している。
これにより、タスク試行の各時点における視覚的入力の連続ストリームから長いフレームシーケンスを推論する必要がある。
この制限に対処するため, ROVER (Reasoning Over VidEo Recursively) を提案する。
ROVERは、グローバルコンテキストを失うことなく、時間的局所化フレームシーケンスよりもより集中的で正確な推論を容易にする。
ROVERは、文脈内学習手法を用いて実装され、多様なOpenX EmbodimentビデオおよびRoboCasaから派生した新しいデータセットに基づいて評価される。
ROVERは、タスク進捗推定、フレームレベルの自然言語推論、ビデオ質問応答という3つのビデオ推論タスクにおいて、強力なベースラインを上回ります。
ROVERは,各段階におけるモデル理由のフレーム数を減少させることで,特に軌道の予期せぬ,あるいは最適でない瞬間において,幻覚を緩和する。
さらに,サブタスク固有のスライディングコンテキストウィンドウの実装を可能にすることにより,ROVERの時間複雑性はビデオ長と線形にスケールし,ベースラインよりも漸近的に改善される。
デモ、コード、データは以下の通り。
関連論文リスト
- Enhancing Long Video Question Answering with Scene-Localized Frame Grouping [19.83545369186771]
現在のMultimodal Large Language Models (MLLMs) は、長いビデオ理解ではよく機能しない。
本稿では,ビデオ質問応答タスクであるSceneQAの新たなシナリオを提案する。
本研究では,個々のフレームを意味的に一貫性のあるシーンフレームに結合する,SLFGと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-08-05T02:28:58Z) - SceneRAG: Scene-level Retrieval-Augmented Generation for Video Understanding [6.980340270823506]
SceneRAGは,映像を物語に一貫性のあるシーンに分割するフレームワークである。
各シーンについて、このフレームワークは視覚とテキストの両方のモダリティから情報を融合し、エンティティ関係を抽出する。
LongerVideosベンチマークの実験では、134時間以上の多様なコンテンツがあり、SceneRAGが以前のベースラインを大幅に上回っていることを確認した。
論文 参考訳(メタデータ) (2025-06-09T10:00:54Z) - RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph [3.1671311914949545]
RAVUは、時間グラフ上の推論による検索によるビデオ強化理解のためのフレームワークである。
我々は,エンティティ間の空間的および時間的関係の両方をキャプチャーするグラフ表現を構築した。
複雑なクエリに答えるために、クエリを推論ステップのシーケンスに分解し、グラフ上でこれらのステップを実行する。
提案手法により,長いビデオのより正確な理解が可能となり,特にフレーム間のマルチホップ推論やオブジェクトの追跡を必要とするクエリに対して有効である。
論文 参考訳(メタデータ) (2025-05-06T04:38:09Z) - ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos [25.988212332357545]
ReVisionLLMは、1時間ビデオ中のイベントを見つけるために設計された視覚言語モデルである。
人間の検索戦略にインスパイアされた私たちのモデルは、当初は幅広い関心領域をターゲットとしていました。
私たちのモデルは、数分から数時間の間、非常に異なる長さの動画をシームレスに処理することができます。
論文 参考訳(メタデータ) (2024-11-22T12:46:50Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。
SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文 参考訳(メタデータ) (2023-04-18T08:17:58Z) - Temporally Consistent Transformers for Video Generation [80.45230642225913]
正確なビデオを生成するには、アルゴリズムは世界の空間的および時間的依存関係を理解する必要がある。
時間依存性のあるビデオ生成を厳格に評価するために、複雑なデータに関する確立されたベンチマークは存在しない。
本稿では,長期間の一貫性を著しく向上し,サンプリング時間を短縮するTemporally Consistent Transformer(TECO)を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:15:10Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Reconstructive Sequence-Graph Network for Video Summarization [107.0328985865372]
キーショットベースのビデオ要約には,インナーショットとインショット間の依存関係の活用が不可欠だ。
フレームとショットをシーケンスおよびグラフ階層としてエンコードする再構成シーケンスグラフネットワーク(RSGN)を提案する。
リコンストラクタを開発し、サマリージェネレータに報奨を与えることにより、ジェネレータを教師なしの方法で最適化することができる。
論文 参考訳(メタデータ) (2021-05-10T01:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。