Fugu-MT 論文翻訳(概要): Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress

論文の概要: Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress

arxiv url: http://arxiv.org/abs/2603.17312v1
Date: Wed, 18 Mar 2026 03:13:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.494298
Title: Recurrent Reasoning with Vision-Language Models for Estimating Long-Horizon Embodied Task Progress
Title（参考訳）: 長軸エンボディータスクの進行度推定のためのビジョンランゲージモデルによる繰り返し推論
Authors: Yuelin Zhang, Sijie Cheng, Chen Li, Zongzhao Li, Yuxin Huang, Yang Liu, Wenbing Huang,
Abstract要約: Recurrent Reasoning Vision-Language Model(textR2$VLM)を提案する。本モデルでは,局所的なビデオスニペットを反復的に処理し,グローバルなコンテキストを維持するリカレント推論フレームワークを特徴とする。 ALFREDとEgo4Dから生成された大規模で自動生成されたデータセットに対して、textR2$VLMをトレーニングします。
参考スコア（独自算出の注目度）: 32.47071055191472
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurately estimating task progress is critical for embodied agents to plan and execute long-horizon, multi-step tasks. Despite promising advances, existing Vision-Language Models (VLMs) based methods primarily leverage their video understanding capabilities, while neglecting their complex reasoning potential. Furthermore, processing long video trajectories with VLMs is computationally prohibitive for real-world deployment. To address these challenges, we propose the Recurrent Reasoning Vision-Language Model ($\text{R}^2$VLM). Our model features a recurrent reasoning framework that processes local video snippets iteratively, maintaining a global context through an evolving Chain of Thought (CoT). This CoT explicitly records task decomposition, key steps, and their completion status, enabling the model to reason about complex temporal dependencies. This design avoids the high cost of processing long videos while preserving essential reasoning capabilities. We train $\text{R}^2$VLM on large-scale, automatically generated datasets from ALFRED and Ego4D. Extensive experiments on progress estimation and downstream applications, including progress-enhanced policy learning, reward modeling for reinforcement learning, and proactive assistance, demonstrate that $\text{R}^2$VLM achieves strong performance and generalization, achieving a new state-of-the-art in long-horizon task progress estimation. The models and benchmarks are publicly available at \href{https://huggingface.co/collections/zhangyuelin/r2vlm}{huggingface}.
Abstract（参考訳）: タスク進捗を正確に見積もることは、エンボディエージェントが長期のマルチステップタスクを計画し実行するために重要である。有望な進歩にもかかわらず、既存のビジョン・ランゲージ・モデル(VLM)ベースの手法は主にビデオ理解能力を活用し、複雑な推論の可能性を無視している。さらに、VLMによる長いビデオトラジェクトリの処理は、現実のデプロイメントでは計算が禁じられている。これらの課題に対処するために、Recurrent Reasoning Vision-Language Model(\text{R}^2$VLM)を提案する。我々のモデルは、ローカルビデオスニペットを反復的に処理し、進化するChain of Thought (CoT)を通してグローバルなコンテキストを維持する、反復的推論フレームワークを特徴としている。このCoTは、タスクの分解、キーステップ、およびその完了ステータスを明示的に記録し、複雑な時間的依存関係をモデルが推論できるようにする。この設計は、重要な推論能力を保ちながら、長いビデオを処理するコストが高いことを回避している。 ALFREDとEgo4Dから生成された大規模で自動生成されたデータセットに対して、$\text{R}^2$VLMをトレーニングします。プログレッシブ・エンハンス・ポリシー・ラーニング、強化学習のための報酬モデリング、プロアクティブ・アシストなど、進捗予測や下流の応用に関する広範な実験により、$\text{R}^2$VLMが高い性能と一般化を達成し、長期タスク・プログレッシブ・プログレッシブ・プログレッシブ・プログレッシブ・アセスメント・アセスメント・アセスメントにおける新たな最先端の達成を実証した。モデルとベンチマークは \href{https://huggingface.co/collections/zhangyuelin/r2vlm}{huggingface} で公開されている。

関連論文リスト

Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining [56.62125584296097]
Keyframe-Chaining VLAは、キー履歴フレームを抽出し、長い水平依存関係をモデル化するフレームワークである。本研究では,現在の実行フェーズに対する時間的関連性に基づいて,動的に履歴フレームを検索する進捗対応機構を設計する。タスク成功率を測定するために,ManiSkillシミュレータ上に構築された4つの非マルコフ操作タスクスイートを紹介する。
論文参考訳（メタデータ） (2026-03-02T05:26:29Z)
TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics [46.912038830356714]
本稿では,ロボット作業の進捗を推定する時間的価値関数TOPRewardを紹介する。 130以上の異なる実世界のタスクに対するゼロショット評価では、TOPRewardはQwen3-VL上で0.947の平均値順序相関(VOC)を達成する。我々は,TOPRewardがダウンストリームアプリケーションのための汎用ツールであることを示す。
論文参考訳（メタデータ） (2026-02-22T19:25:48Z)
Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文参考訳（メタデータ） (2025-10-15T19:14:58Z)
Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。 VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文参考訳（メタデータ） (2025-08-06T09:03:10Z)
Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-03-27T20:32:58Z)
OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。 OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Enhanced Continual Learning of Vision-Language Models with Model Fusion [16.764069327701186]
VLM(Vision-Language Models)は、人工知能のブレークスルーである。 VLMは、複数の下流タスクで連続的に微調整されたときに、破滅的な忘れをしがちである。本稿では,連続的な学習にモデル融合を導入することで,新しいアプローチであるConDUを提案する。
論文参考訳（メタデータ） (2025-03-12T15:48:13Z)
Vision Language Models are In-Context Value Learners [89.29486557646624]
本稿では、視覚言語モデル(VLM)に埋め込まれた世界的知識を活用してタスクの進捗を予測する普遍的価値関数推定器である生成価値学習(GVL)を提案する。ロボットやタスク固有のトレーニングがなければ、GVLは300以上の異なる現実世界のタスクに対して、ゼロショットと数ショットの効果的な値をインコンテキストで予測することができる。
論文参考訳（メタデータ） (2024-11-07T09:17:50Z)
LLM-State: Open World State Representation for Long-horizon Task Planning with Large Language Model [25.29170146456063]
本研究では,Large Language Model (LLM) を用いたオープンワールド家庭環境における長期タスクプランニングの問題に対処する。既存の作業は、キーオブジェクトと属性を明示的に追跡することができない。オブジェクト属性の連続的な拡張と更新を提供するオープンステート表現を提案する。
論文参考訳（メタデータ） (2023-11-29T07:23:22Z)
Learning Long-term Visual Dynamics with Region Proposal Interaction Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文参考訳（メタデータ） (2020-08-05T17:48:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。