論文の概要: MCTS-EP: Empowering Embodied Planning with Online Preference Optimization
- arxiv url: http://arxiv.org/abs/2509.17116v1
- Date: Sun, 21 Sep 2025 15:17:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.12454
- Title: MCTS-EP: Empowering Embodied Planning with Online Preference Optimization
- Title(参考訳): MCTS-EP: オンライン優先度最適化による身体的計画の強化
- Authors: Hang Xu, Zang Yu, Yehui Tang, Pengbo Hu, Yuhao Tang, Hao Dong,
- Abstract要約: 本稿では,大規模言語モデル(LLM)とモンテカルロ木探索(MCTS)を組み合わせたオンライン学習フレームワークMCTS-EPを紹介する。
MCTS-EPは、ロス関数が強い凸である場合、従来のオンラインアルゴリズムよりも優れた性能バウンダリが得られることを理論的に証明する。
- 参考スコア(独自算出の注目度): 42.11570460915765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces MCTS-EP, an online learning framework that combines large language models (LLM) with Monte Carlo Tree Search (MCTS) for training embodied agents. MCTS-EP integrates three key components: MCTS-guided exploration for preference data collection, efficient multi-modal reasoning mechanism, and iterative training pipeline based on preference optimization. We theoretically prove that MCTS-EP achieves better performance bounds than conventional on-policy algorithms when the loss function is strongly convex, and demonstrate that it can be formulated as a search-enhanced variant of GAIL. MCTS-EP achieves state-of-the-art performace across serval benchmarks. In ALFWorld, it achieves 92% and 87% success rates for textual and visual tasks. In WebShop, it reaches an average reward of 0.81. MTCS-EP also reduces average interaction steps from from 18.7/19.5 to 10.2/9.9 steps in visual ALFWorld.Code available at: https://github.com/xuhang-2/Embodied-Agent-Planning
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)とモンテカルロ木探索(MCTS)を組み合わせたオンライン学習フレームワークMCTS-EPを紹介する。
MCTS-EPは、優先データ収集のためのMCTS誘導探索、効率的なマルチモーダル推論機構、優先最適化に基づく反復的トレーニングパイプラインの3つの重要なコンポーネントを統合している。
ロス関数が強凸である場合,MCTS-EPは従来のオンラインアルゴリズムよりも優れた性能バウンダリを達成できることを理論的に証明し,GAILの探索強化版として定式化できることを実証する。
MCTS-EPはサーバルベンチマークで最先端のパフォーマンスを達成する。
ALFWorldでは、テキストタスクと視覚タスクの92%と87%の成功率を達成した。
WebShopでは、平均的な報酬0.81に達する。
MTCS-EPは、平均的なインタラクションステップを18.7/19.5から10.2/9ステップに短縮する。
関連論文リスト
- UniECS: Unified Multimodal E-Commerce Search Framework with Gated Cross-modal Fusion [20.13803245640432]
現在のeコマースマルチモーダル検索システムは2つの重要な制限に直面している。
彼らは、固定されたモダリティペアリングで特定のタスクを最適化し、統一された検索アプローチを評価するための包括的なベンチマークを欠いている。
画像,テキスト,およびそれらの組み合わせにわたるすべての検索シナリオを処理する統合マルチモーダルeコマース検索フレームワークであるUniECSを紹介する。
論文 参考訳(メタデータ) (2025-08-19T14:06:13Z) - A Practical Two-Stage Recipe for Mathematical LLMs: Maximizing Accuracy with SFT and Efficiency with Reinforcement Learning [0.40964539027092906]
監督された微調整と強化学習が主要な訓練パラダイムである。
本稿では,オンライン推論から拡張SFTとRLを戦略的に統合する実践的で効果的なトレーニングレシピを提案する。
実験の結果,SFTを最大10時間拡張することは,パフォーマンスのブレークスルーに不可欠であることが判明した。
この研究は、コミュニティに最先端の数学的推論器を開発するための、テスト済みの青写真を提供する。
論文 参考訳(メタデータ) (2025-07-11T02:26:01Z) - Doubly Robust Monte Carlo Tree Search [0.0]
我々はDouubly Robust Monte Carlo Tree Search (DR-MCTS)を紹介し、Douubly Robust Off-policy EstimationをMonte Carlo Tree Search (MCTS)に統合する新しいアルゴリズムを提案する。
提案手法は, MCTSロールアウトとDR推定を組み合わせることで, 条件下での非バイアス性および分散低減の理論的保証を提供する。
Tic-Tac-Toeと部分的に観測可能なVirtualHome環境における実証評価は、DR-MCTSが標準MCTSよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-02-01T19:32:46Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Optimized Monte Carlo Tree Search for Enhanced Decision Making in the FrozenLake Environment [0.0]
Monte Carlo Tree Search (MCTS) は複雑な意思決定問題を解決する強力なアルゴリズムである。
本稿では,古典的強化学習課題であるFrozenLake環境に適用したMCTS実装を提案する。
論文 参考訳(メタデータ) (2024-09-25T05:04:53Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval [94.73459295405507]
Smooth-APは、ディープネットワークのエンドツーエンドトレーニングを可能にする、プラグアンドプレイの客観的機能である。
我々はSmooth-APをStanford Online製品とVabyIDの標準ベンチマークに適用する。
Inaturalist for fine-fine category search, VGGFace2 and IJB-C for face search。
論文 参考訳(メタデータ) (2020-07-23T17:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。