論文の概要: Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning
- arxiv url: http://arxiv.org/abs/2511.10087v1
- Date: Fri, 14 Nov 2025 01:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.687614
- Title: Opinion: Towards Unified Expressive Policy Optimization for Robust Robot Learning
- Title(参考訳): オピニオン:ロバストロボット学習のための統一表現型ポリシー最適化を目指して
- Authors: Haidong Huang, Haiyue Zhu. Jiayu Song, Xixin Zhao, Yaohua Zhou, Jiayi Zhang, Yuze Zhai, Xiaocong Li,
- Abstract要約: 本稿では,大規模言語モデルの事前学習と微調整戦略に触発された統一型生成フレームワークUEPOを提案する。
筆者らの貢献は,(1)複数のモデルを訓練することなく,多種多様なモダリティを効率的に捉えるマルチシーズ対応拡散政策,(2)物理的に意味のある政策多様性を強制する動的分散正規化機構,(3)動的モデル一般化を強化する拡散型データ拡張モジュールの3つである。
- 参考スコア(独自算出の注目度): 8.277689331569787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline-to-online reinforcement learning (O2O-RL) has emerged as a promising paradigm for safe and efficient robotic policy deployment but suffers from two fundamental challenges: limited coverage of multimodal behaviors and distributional shifts during online adaptation. We propose UEPO, a unified generative framework inspired by large language model pretraining and fine-tuning strategies. Our contributions are threefold: (1) a multi-seed dynamics-aware diffusion policy that efficiently captures diverse modalities without training multiple models; (2) a dynamic divergence regularization mechanism that enforces physically meaningful policy diversity; and (3) a diffusion-based data augmentation module that enhances dynamics model generalization. On the D4RL benchmark, UEPO achieves +5.9\% absolute improvement over Uni-O4 on locomotion tasks and +12.4\% on dexterous manipulation, demonstrating strong generalization and scalability.
- Abstract(参考訳): オフラインからオンラインへの強化学習(O2O-RL)は、安全で効率的なロボットポリシー展開のための有望なパラダイムとして登場したが、2つの根本的な課題に悩まされている。
本稿では,大規模言語モデルの事前学習と微調整戦略に触発された統一型生成フレームワークUEPOを提案する。
筆者らの貢献は,(1)複数のモデルを訓練することなく,多種多様なモダリティを効率的に捉えるマルチシーズ対応拡散政策,(2)物理的に意味のある政策多様性を強制する動的分散正規化機構,(3)動的モデル一般化を強化する拡散型データ拡張モジュールである。
D4RLのベンチマークでは、UEPOはロコモーションタスクでUni-O4に対して+5.9\%、デキスタラス操作で+12.4\%を達成し、強力な一般化とスケーラビリティを示している。
関連論文リスト
- Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models [31.470613363668672]
Adaptive Divergence Regularized Policy Optimization (Adaptive Divergence Regularized Policy Optimization) は、有利な推定値に基づいて正規化強度を自動的に調整する。
We implementation with Wasserstein-2 regularization for flow matching generative model is achieved great results on text-to-image generation。
ADRPOはテキストのみのLLMとマルチモーダル推論モデルの両方をKL規則化された微調整に一般化する。
論文 参考訳(メタデータ) (2025-10-20T19:46:02Z) - Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。
本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-26T21:53:36Z) - Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - LAMeTA: Intent-Aware Agentic Network Optimization via a Large AI Model-Empowered Two-Stage Approach [68.198383438396]
本稿では,大規模AIモデル(LAM)を用いたエージェントネットワーク最適化のための2段階アプローチであるLAMeTAを提案する。
まず,インテント指向の知識蒸留(IoKD)を提案する。
第2に、E-LAMをポリシーベースのDRLフレームワークに統合した共生強化学習(SRL)を開発する。
論文 参考訳(メタデータ) (2025-05-18T05:59:16Z) - Imagine-2-Drive: Leveraging High-Fidelity World Models via Multi-Modal Diffusion Policies [9.639797094021988]
World Model-based Reinforcement Learning (WMRL)は、効率的な政策学習を可能にする。
マルチモーダル拡散型ポリシーアクタと高忠実度世界モデルを統合する新しいWMRLフレームワークであるImagine-2-Driveを提案する。
DiffDreamer内のDPAをトレーニングすることにより,オンラインインタラクションを最小限に抑えた堅牢なポリシー学習を実現する。
論文 参考訳(メタデータ) (2024-11-15T13:17:54Z) - Beyond Conservatism: Diffusion Policies in Offline Multi-agent
Reinforcement Learning [29.31031504054288]
オフラインマルチエージェント強化学習(MARL)のための新しい拡散オフラインマルチエージェントモデル(DOM2)を提案する。
DOM2は、拡散に基づくポリシー表現性と多様性を強化する。
既存のアルゴリズムに比べて20ドル以上のデータで最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2023-07-04T04:40:54Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。