論文の概要: SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents
- arxiv url: http://arxiv.org/abs/2506.21669v1
- Date: Thu, 26 Jun 2025 18:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:22.958318
- Title: SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents
- Title(参考訳): SEEA-R1:木構造強化微細調整による自己進化型炭水化物
- Authors: Wanxin Tian, Shijie Zhang, Kevin Zhang, Xiaowei Chi, Yulin Luo, Junyu Lu, Chunkai Fan, Qiang Zhou, Yiming Zhao, Ning Liu Siyu Lin, Zhiyuan Qin, Xiaozhu Ju, Shanghang Zhang, Jian Tang,
- Abstract要約: 自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
スパース遅延報酬をより高密度な中間信号に変換し、多段階推論を改善する。
タスクやシーンにまたがる報酬推定を一般化し、自律的な適応と報酬駆動の自己進化をサポートする。
- 参考スコア(独自算出の注目度): 31.726927520069616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-evolution, the ability of agents to autonomously improve their reasoning and behavior, is essential for the embodied domain with long-horizon, real-world tasks. Despite current advancements in reinforcement fine-tuning (RFT) showing strong performance in enhancing reasoning in LLMs, its potential to enable self-evolving embodied intelligence with multi-modal interactions remains largely unexplored. Specifically, reinforcement fine-tuning faces two fundamental obstacles in embodied settings: (i) the lack of accessible intermediate rewards in multi-step reasoning tasks limits effective learning signals, and (ii) reliance on hand-crafted reward functions restricts generalization to novel tasks and environments. To address these challenges, we present Self-Evolving Embodied Agents-R1, SEEA-R1, the first RFT framework designed for enabling the self-evolving capabilities of embodied agents. Specifically, to convert sparse delayed rewards into denser intermediate signals that improve multi-step reasoning, we propose Tree-based group relative policy optimization (Tree-GRPO), which integrates Monte Carlo Tree Search into GRPO. To generalize reward estimation across tasks and scenes, supporting autonomous adaptation and reward-driven self-evolution, we further introduce Multi-modal Generative Reward Model (MGRM). To holistically evaluate the effectiveness of SEEA-R1, we evaluate on the ALFWorld benchmark, surpassing state-of-the-art methods with scores of 85.07% (textual) and 36.19% (multi-modal), outperforming prior models including GPT-4o. SEEA-R1 also achieves scores of 80.3% without environmental reward, surpassing all open-source baselines and highlighting its scalability as a self-evolving embodied agent. Additional experiments and qualitative analysis further support the potential of SEEA-R1 for future research in scalable embodied intelligence.
- Abstract(参考訳): エージェントが推論や振る舞いを自律的に改善する能力である自己進化(Self-evolution)は、長期的な現実世界のタスクを具現化したドメインにとって不可欠である。
強化微調整(RFT)の進歩はLLMの推論の強化に強い効果を示したが、多モーダル相互作用による自己進化型インテリジェンスの実現の可能性はほとんど未解明のままである。
具体的には、強化微調整は2つの基本的な障害に直面している。
(i)多段階推論タスクにおけるアクセス可能な中間報酬の欠如は効果的な学習信号を制限し、
(II)手作り報酬関数への依存は、新しいタスクや環境への一般化を制限する。
これらの課題に対処するため, エンボディエージェントの自己進化機能を実現するために設計された最初のRTTフレームワークであるSeEA-R1を提案する。
具体的には,モンテカルロ木探索をGRPOに統合したTree-GRPO(Tree-GRPO)を提案する。
タスクやシーン間の報酬推定を一般化し、自律的適応と報酬駆動型自己進化を支援するため、さらにMGRM(Multi-modal Generative Reward Model)を導入する。
SEEA-R1の有効性を総括的に評価するため、GPT-4oを含む先行モデルよりも85.07%(テキスト)と36.19%(マルチモーダル)のスコアで、ALFWorldベンチマークで評価した。
SEEA-R1はまた、環境の報奨なく80.3%のスコアを獲得し、すべてのオープンソースベースラインを越え、そのスケーラビリティを自己進化型エンボディエージェントとして強調している。
さらなる実験と定性的分析は、スケーラブルなエンボディドインテリジェンスの研究のためのSEEA-R1の可能性をさらに支持している。
関連論文リスト
- JoyAgents-R1: Joint Evolution Dynamics for Versatile Multi-LLM Agents with Reinforcement Learning [6.81021875668872]
ヘテロジニアス多エージェントの協調訓練にグループ相対ポリシー最適化を適用したJoyAgents-R1を提案する。
JoyAgents-R1は、より小さなオープンソースモデルで構築されたより大きなLLMに匹敵する性能を実現していることを示す。
論文 参考訳(メタデータ) (2025-06-24T17:59:31Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - RAIDEN-R1: Improving Role-awareness of LLMs via GRPO with Verifiable Reward [7.9399136525335585]
RAIDEN-R1は、VRAR(Verifiable Role-Awareness Reward)を統合した新しい強化学習フレームワークである
マルチLLMコラボレーションにより,高品質で役割対応のChain-of-Thoughtデータセットを構築した。
RAIDENベンチマークの実験では、RAIDEN-R1の優位性が示されている。
論文 参考訳(メタデータ) (2025-05-15T12:22:10Z) - Universal AI maximizes Variational Empowerment [0.0]
我々は、自己学習エージェントであるSelf-AIXIの既存のフレームワークの上に構築する。
ユニバーサルAIエージェントのパワーサーキング傾向は、将来の報酬を確保するための手段戦略として説明できる、と我々は主張する。
私たちの主な貢献は、これらのモチベーションがAIエージェントを体系的に高オプション状態を探し、維持する方法を示すことです。
論文 参考訳(メタデータ) (2025-02-20T02:58:44Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。