論文の概要: ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.12693v1
- Date: Tue, 14 Oct 2025 16:25:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.392779
- Title: ERA: Transforming VLMs into Embodied Agents via Embodied Prior Learning and Online Reinforcement Learning
- Title(参考訳): ERA: 身体的事前学習とオンライン強化学習によるVLMの身体的エージェントへの変換
- Authors: Hanyang Chen, Mark Zhao, Rui Yang, Qinwei Ma, Ke Yang, Jiarui Yao, Kangrui Wang, Hao Bai, Zhenhailong Wang, Rui Pan, Mengchao Zhang, Jose Barreiros, Aykut Onol, ChengXiang Zhai, Heng Ji, Manling Li, Huan Zhang, Tong Zhang,
- Abstract要約: 先行知識学習とオンライン強化学習を統合したフレームワークである TextitEmbodied Reasoning Agent (ERA) を提案する。
ERAはスケーラブルなエンボディドインテリジェンスへの実践的なパスを提供し、将来のエンボディドAIシステムに対する方法論的な洞察を提供する。
- 参考スコア(独自算出の注目度): 73.35191368656224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in embodied AI highlight the potential of vision language models (VLMs) as agents capable of perception, reasoning, and interaction in complex environments. However, top-performing systems rely on large-scale models that are costly to deploy, while smaller VLMs lack the necessary knowledge and skills to succeed. To bridge this gap, we present \textit{Embodied Reasoning Agent (ERA)}, a two-stage framework that integrates prior knowledge learning and online reinforcement learning (RL). The first stage, \textit{Embodied Prior Learning}, distills foundational knowledge from three types of data: (1) Trajectory-Augmented Priors, which enrich existing trajectory data with structured reasoning generated by stronger models; (2) Environment-Anchored Priors, which provide in-environment knowledge and grounding supervision; and (3) External Knowledge Priors, which transfer general knowledge from out-of-environment datasets. In the second stage, we develop an online RL pipeline that builds on these priors to further enhance agent performance. To overcome the inherent challenges in agent RL, including long horizons, sparse rewards, and training instability, we introduce three key designs: self-summarization for context management, dense reward shaping, and turn-level policy optimization. Extensive experiments on both high-level planning (EB-ALFRED) and low-level control (EB-Manipulation) tasks demonstrate that ERA-3B surpasses both prompting-based large models and previous training-based baselines. Specifically, it achieves overall improvements of 8.4\% on EB-ALFRED and 19.4\% on EB-Manipulation over GPT-4o, and exhibits strong generalization to unseen tasks. Overall, ERA offers a practical path toward scalable embodied intelligence, providing methodological insights for future embodied AI systems.
- Abstract(参考訳): 近年のAIの進歩は、複雑な環境における知覚、推論、相互作用のエージェントとしての視覚言語モデル(VLM)の可能性を強調している。
しかしながら、トップパフォーマンスのシステムはデプロイにコストがかかる大規模なモデルに依存している一方、より小さなVLMは成功するために必要な知識やスキルを欠いている。
このギャップを埋めるために、先行知識学習とオンライン強化学習(RL)を統合した2段階のフレームワークである「textit{Embodied Reasoning Agent(ERA)」を提案する。
第1段階である「textit{Embodied Prior Learning}」は、(1)より強大なモデルによって生成された構造的推論で既存の軌跡データを豊かにするトラジェクティブ・オービメンテーション・プリエント、(2)環境保護プライド、(3)環境外データセットから一般的な知識を伝達するナレッジ・ナレッジ・プリエント、の三種類のデータから基礎知識を抽出する。
第2段階では、エージェント性能をさらに向上するために、これらの先行技術に基づいて構築されたオンラインRLパイプラインを開発する。
長期の地平線やスパース報酬,トレーニングの不安定性など,エージェントRLの固有の課題を克服するために,コンテキスト管理のための自己要約,高密度報酬形成,ターンレベルのポリシー最適化という,3つの重要な設計を導入する。
高レベル計画(EB-ALFRED)と低レベル制御(EB-Manipulation)の両方のタスクに関する大規模な実験により、ERA-3Bがプロンプトベースの大規模モデルと以前のトレーニングベースのベースラインの両方を超越していることが示されている。
具体的には、EB-ALFRED の 8.4 % と GPT-4o の EB-Manipulation の 19.4 % を総合的に改善し、目に見えないタスクに対して強力な一般化を示す。
全体として、ERAはスケーラブルなエンボディドインテリジェンスへの実践的なパスを提供し、将来のエンボディドAIシステムに対する方法論的な洞察を提供する。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Agentic-KGR: Co-evolutionary Knowledge Graph Construction through Multi-Agent Reinforcement Learning [6.665920297143511]
Agentic-KGRは、大規模言語モデル(LLM)と知識グラフ(KG)の共進化を可能にする新しいフレームワークである。
提案手法では,(1)事前定義された境界を超えてグラフを体系的に拡張する動的スキーマ拡張機構,(2)連続最適化によるモデルパラメータと知識構造間の相乗的共進化を可能にする検索強化メモリシステム,(3)適応シーケンス最適化による計算複雑性を低減しつつ,重要な情報を保存する学習可能なマルチスケールプロンプト圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-10-10T09:00:07Z) - Reinforcement Learning on Pre-Training Data [55.570379963147424]
我々は,大規模言語モデル(LLM)を最適化するための新しい訓練時間スケーリングパラダイムである,事前学習データ(R)の強化学習を紹介する。
Rは、有意義な軌道を自律的に探索し、事前学習データから学び、強化学習(RL)を通してその能力を向上させる。
複数のモデルにわたる一般領域および数学的推論ベンチマークの広範な実験は、Rの有効性を検証した。
論文 参考訳(メタデータ) (2025-09-23T17:10:40Z) - Agentic Episodic Control [16.94652073521156]
強化学習(RL)は、ゲームプレイから科学的発見、AIアライメントに至るまで、AIのブレークスルーを推進してきた。
近年の進歩は、豊かな世界知識と推論能力を持つ大規模言語モデルが、意味的状態モデリングとタスクに依存しない計画を可能にすることで、RLを補完する可能性があることを示唆している。
本稿では,RLを大規模言語モデルと統合して意思決定を促進する新しいアーキテクチャであるエージェント・エピソディクス・コントロール(AEC)を提案する。
論文 参考訳(メタデータ) (2025-06-02T08:57:37Z) - Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model [39.58344147240552]
我々は,大局的な視覚言語モデル (VLM) が,配布外条件下でのモダリティやタスクにまたがる機能を構成することができるかどうかを検討する。
我々の研究は、RLベースの推論VLMトレーニングの現在の限界に光を当て、モーダルやタスクにまたがる構成的推論モデル構築に向けた実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-26T01:42:38Z) - LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Human-Timescale Adaptation in an Open-Ended Task Space [56.55530165036327]
大規模にRLエージェントを訓練することで、オープンエンドの新規な3D問題に人間と同じくらい早く適応できる一般的なコンテキスト内学習アルゴリズムが実現可能であることを示す。
我々の研究は、より大規模で適応的なRLエージェントの基礎を築いた。
論文 参考訳(メタデータ) (2023-01-18T15:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。