論文の概要: Towards Robust Zero-Shot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.15382v2
- Date: Thu, 23 Oct 2025 06:54:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:11.545398
- Title: Towards Robust Zero-Shot Reinforcement Learning
- Title(参考訳): ロバストゼロショット強化学習に向けて
- Authors: Kexin Zheng, Lauriane Teyssier, Yinan Zheng, Yu Luo, Xianyuan Zhan,
- Abstract要約: ゼロショット強化学習(英語版) (RL) の最近の発展は、ゼロショット方式で任意の新しいタスクに適応できる事前訓練されたジェネリストポリシーを学習するための新たな道を開いた。
一般的なフォワード・バックワード表現(FB)および関連する手法はゼロショットRLにおいて有望であることを示しているが、それらのモデリングには表現性が欠如しており、外挿誤差が準最適性能を引き起こしていることを実証的に見出した。
本稿では、学習安定性、ポリシー抽出能力、表現学習品質を同時に向上するFBベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.262048244005296
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The recent development of zero-shot reinforcement learning (RL) has opened a new avenue for learning pre-trained generalist policies that can adapt to arbitrary new tasks in a zero-shot manner. While the popular Forward-Backward representations (FB) and related methods have shown promise in zero-shot RL, we empirically found that their modeling lacks expressivity and that extrapolation errors caused by out-of-distribution (OOD) actions during offline learning sometimes lead to biased representations, ultimately resulting in suboptimal performance. To address these issues, we propose Behavior-REgularizEd Zero-shot RL with Expressivity enhancement (BREEZE), an upgraded FB-based framework that simultaneously enhances learning stability, policy extraction capability, and representation learning quality. BREEZE introduces behavioral regularization in zero-shot RL policy learning, transforming policy optimization into a stable in-sample learning paradigm. Additionally, BREEZE extracts the policy using a task-conditioned diffusion model, enabling the generation of high-quality and multimodal action distributions in zero-shot RL settings. Moreover, BREEZE employs expressive attention-based architectures for representation modeling to capture the complex relationships between environmental dynamics. Extensive experiments on ExORL and D4RL Kitchen demonstrate that BREEZE achieves the best or near-the-best performance while exhibiting superior robustness compared to prior offline zero-shot RL methods. The official implementation is available at: https://github.com/Whiterrrrr/BREEZE.
- Abstract(参考訳): ゼロショット強化学習(英語版) (RL) の最近の発展により、ゼロショット方式で任意の新しいタスクに適応できる事前訓練されたジェネリストポリシーを学ぶための新たな道が開かれた。
一般的なフォワード・バックワード表現(FB)と関連する手法はゼロショットRLにおいて有望であることを示しているが、それらのモデリングには表現性が欠如しており、オフライン学習におけるアウト・オブ・ディストリビューション(OOD)動作による外挿誤差が、時にはバイアスのある表現に結びつき、最終的には準最適性能をもたらすことを実証的に見出した。
これらの課題に対処するため、我々は、学習安定性、ポリシー抽出能力、表現学習品質を同時に向上するFBベースのフレームワークであるExpressivity enhancement (BREEZE) を用いたBehaviment-RegularizEd Zero-shot RLを提案する。
BREEZEは、ゼロショットRLポリシー学習における行動規則化を導入し、ポリシー最適化を安定したインサンプル学習パラダイムに変換する。
さらに、BREEZEはタスク条件付き拡散モデルを用いてポリシーを抽出し、ゼロショットRL設定における高品質かつマルチモーダルなアクション分布の生成を可能にする。
さらに、BREEZEは、環境力学間の複雑な関係を捉えるために、表現モデリングに表現的注意に基づくアーキテクチャを採用している。
ExORL と D4RL Kitchen の大規模な実験により、BREEZE は、以前のオフラインゼロショット RL 法と比較して、優れたロバスト性を示しながら、最良または最良に近い性能を達成することを示した。
公式実装はhttps://github.com/Whiterrrrr/BREEZE.comで公開されている。
関連論文リスト
- Adversarial Diffusion for Robust Reinforcement Learning [46.44328012099217]
我々はロバスト強化学習(AD-RRL)のための逆拡散を導入する。
AD-RRLは拡散過程を導出し、トレーニング中に最悪の場合の軌跡を生成し、累積リターンの条件値(CVaR)を効果的に最適化する。
標準ベンチマークにおける実験結果から、AD-RRLは既存のロバストなRL法と比較して、優れたロバスト性と性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-09-28T12:34:35Z) - Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Fast Adaptation with Behavioral Foundation Models [82.34700481726951]
教師なしゼロショット強化学習は、行動基礎モデルの事前学習のための強力なパラダイムとして登場した。
有望な結果にもかかわらず、ゼロショットポリシーは、教師なしのトレーニングプロセスによって引き起こされるエラーにより、しばしば準最適である。
本稿では,事前訓練されたBFMの低次元タスク埋め込み空間を探索し,ゼロショットポリシーの性能を急速に向上させる高速適応手法を提案する。
論文 参考訳(メタデータ) (2025-04-10T16:14:17Z) - From Imitation to Refinement -- Residual RL for Precise Assembly [19.9786629249219]
近年のビヘイビア・クローン(BC)の進歩により、ロボットに新しいタスクを教えるのが容易になった。
しかし、教育の容易さは信頼性の低いパフォーマンスを犠牲にしている。
我々は,BCの教えやすさと長期的能力を維持しながら信頼性を克服する,シンプルで効果的な方法であるResiPを考案した。
論文 参考訳(メタデータ) (2024-07-23T17:44:54Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Hyperbolic Deep Reinforcement Learning [8.983647543608226]
双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
論文 参考訳(メタデータ) (2022-10-04T12:03:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。