論文の概要: Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.06893v1
- Date: Mon, 10 Mar 2025 03:50:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:51:19.091536
- Title: Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning
- Title(参考訳): クロスダイナミクス強化学習におけるグローバルアクセシブル状態のポリシー規則化
- Authors: Zhenghai Xue, Lang Feng, Jiacheng Xu, Kang Kang, Xiang Wen, Bo An, Shuicheng Yan,
- Abstract要約: 我々は、報酬レンダリングとImitation from Observation (IfO)を統合した新しいフレームワークを提案する。
異なる方法でF距離をインスタンス化することにより、2つの理論的解析を導き、アクセシブルステート指向ポリシー規則化(ASOR)と呼ばれる実用的なアルゴリズムを開発する。
ASOR は、オフライン RL やオフライン RL など、様々なアプローチ RL に組み込まれる一般的なアドオンモジュールとして機能する。
- 参考スコア(独自算出の注目度): 53.9544543607396
- License:
- Abstract: To learn from data collected in diverse dynamics, Imitation from Observation (IfO) methods leverage expert state trajectories based on the premise that recovering expert state distributions in other dynamics facilitates policy learning in the current one. However, Imitation Learning inherently imposes a performance upper bound of learned policies. Additionally, as the environment dynamics change, certain expert states may become inaccessible, rendering their distributions less valuable for imitation. To address this, we propose a novel framework that integrates reward maximization with IfO, employing F-distance regularized policy optimization. This framework enforces constraints on globally accessible states--those with nonzero visitation frequency across all considered dynamics--mitigating the challenge posed by inaccessible states. By instantiating F-distance in different ways, we derive two theoretical analysis and develop a practical algorithm called Accessible State Oriented Policy Regularization (ASOR). ASOR serves as a general add-on module that can be incorporated into various RL approaches, including offline RL and off-policy RL. Extensive experiments across multiple benchmarks demonstrate ASOR's effectiveness in enhancing state-of-the-art cross-domain policy transfer algorithms, significantly improving their performance.
- Abstract(参考訳): 多様なダイナミクスで収集されたデータから学ぶために、Imitation from Observation (IfO)メソッドは、他のダイナミクスで専門家状態の分布を復元することで、現在の状態の学習が容易になるという前提に基づいて、専門家状態の軌跡を利用する。
しかし、Imitation Learningは本質的には、学習ポリシーのパフォーマンス上の上限を課している。
さらに、環境のダイナミクスが変化するにつれて、特定の専門家状態はアクセス不能になり、その分布は模倣にはあまり価値がなくなる。
そこで本研究では,F-Distanceの規則化ポリシ最適化を用いて,報酬の最大化をifOと統合する新しいフレームワークを提案する。
この枠組みは、グローバルにアクセス可能な状態、すなわち非ゼロ訪問頻度を考慮に入れたすべてのダイナミクスに制約を課し、アクセス不可能な状態によって引き起こされる課題を緩和する。
異なる方法でF距離をインスタンス化することにより、2つの理論的解析を導き、アクセシブルステート指向ポリシー規則化(ASOR)と呼ばれる実用的なアルゴリズムを開発する。
ASORは、オフラインRLやオフラインRLなど、さまざまなRLアプローチに組み込むことのできる一般的なアドオンモジュールとして機能する。
複数のベンチマークにわたる大規模な実験は、最先端のクロスドメインポリシー転送アルゴリズムの強化におけるASORの有効性を示し、その性能を著しく改善した。
関連論文リスト
- Contractive Dynamical Imitation Policies for Efficient Out-of-Sample Recovery [3.549243565065057]
模倣学習(imitation learning)は、専門家の行動からポリシーを学ぶための、データ駆動型アプローチである。
OOS(Out-of-sample)領域では信頼性の低い結果が出る傾向がある。
本稿では,契約型力学系をモデルとした政策学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-10T14:28:18Z) - OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。
既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。
本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文 参考訳(メタデータ) (2024-05-29T13:36:36Z) - Federated Offline Policy Optimization with Dual Regularization [12.320355780707168]
Federated Reinforcement Learning (FRL)は、モノのインターネット時代において、インテリジェントな意思決定のための有望なソリューションとみなされてきた。
既存のFRLアプローチは、しばしばローカル更新中に環境との繰り返しの相互作用を伴い、多くの現実世界のドメインでは違法に高価または不可能である。
本稿では、分散エージェントがプライベートデータと静的データのみから意思決定ポリシーを協調的に学習することを可能にする、新しいオフラインフェデレーション最適化アルゴリズムである$textttO$を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:24:03Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Counterfactual Explanation Policies in RL [3.674863913115432]
COUNTERPOLは、反実的説明を用いて強化学習ポリシーを分析する最初のフレームワークである。
RLにおけるCounterpolと広く利用されている信頼領域ベースのポリシー最適化手法の理論的関係を確立する。
論文 参考訳(メタデータ) (2023-07-25T01:14:56Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Plan Your Target and Learn Your Skills: Transferable State-Only
Imitation Learning via Decoupled Policy Optimization [44.32548301913779]
本稿では,Decoupled Policy Optimization (DePO)を導入し,政策を高レベルな状態プランナと逆ダイナミクスモデルとして明確に分離する。
組込み型疎結合政策勾配と生成的逆行訓練により、DePOは異なる行動空間や状態遷移力学への知識伝達を可能にする。
論文 参考訳(メタデータ) (2022-03-04T09:46:29Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。