論文の概要: Multi-Fidelity Policy Gradient Algorithms
- arxiv url: http://arxiv.org/abs/2503.05696v1
- Date: Fri, 07 Mar 2025 18:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:00.125303
- Title: Multi-Fidelity Policy Gradient Algorithms
- Title(参考訳): 多要素ポリシー勾配アルゴリズム
- Authors: Xinjie Liu, Cyrus Neary, Kushagra Gupta, Christian Ellis, Ufuk Topcu, David Fridovich-Keil,
- Abstract要約: 強化学習アルゴリズムには大量のデータが必要です
低忠実度シミュレータは、直接sim-to-real転送するには大きすぎるとしても、RLトレーニングに有用なデータを提供することができる。
我々は、ターゲット環境から少量のデータと大量の低忠実度シミュレーションデータとを混合するRLフレームワークである多忠実度ポリシー勾配(Gs)を提案する。
- 参考スコア(独自算出の注目度): 23.62115512789292
- License:
- Abstract: Many reinforcement learning (RL) algorithms require large amounts of data, prohibiting their use in applications where frequent interactions with operational systems are infeasible, or high-fidelity simulations are expensive or unavailable. Meanwhile, low-fidelity simulators--such as reduced-order models, heuristic reward functions, or generative world models--can cheaply provide useful data for RL training, even if they are too coarse for direct sim-to-real transfer. We propose multi-fidelity policy gradients (MFPGs), an RL framework that mixes a small amount of data from the target environment with a large volume of low-fidelity simulation data to form unbiased, reduced-variance estimators (control variates) for on-policy policy gradients. We instantiate the framework by developing multi-fidelity variants of two policy gradient algorithms: REINFORCE and proximal policy optimization. Experimental results across a suite of simulated robotics benchmark problems demonstrate that when target-environment samples are limited, MFPG achieves up to 3.9x higher reward and improves training stability when compared to baselines that only use high-fidelity data. Moreover, even when the baselines are given more high-fidelity samples--up to 10x as many interactions with the target environment--MFPG continues to match or outperform them. Finally, we observe that MFPG is capable of training effective policies even when the low-fidelity environment is drastically different from the target environment. MFPG thus not only offers a novel paradigm for efficient sim-to-real transfer but also provides a principled approach to managing the trade-off between policy performance and data collection costs.
- Abstract(参考訳): 多くの強化学習(RL)アルゴリズムは大量のデータを必要とし、運用システムとの頻繁なインタラクションが実現不可能なアプリケーションや、高忠実度シミュレーションが高価または利用できないアプリケーションでの使用を禁止している。
一方、低忠実度シミュレーター(例えば、低次モデル、ヒューリスティック報酬関数、生成世界モデルなど)は、たとえ直接sim-to-real転送するには大きすぎるとしても、安価にRLトレーニングに有用なデータを提供することができる。
本稿では, 対象環境から少量のデータと大量の低忠実度シミュレーションデータとを混合した多忠実度ポリシー勾配(MFPG)を提案する。
本稿では,REINFORCEと近似ポリシ最適化という,2つのポリシー勾配アルゴリズムの多要素変種を開発することにより,フレームワークのインスタンス化を行う。
シミュレーションロボットベンチマークの一連の問題に対する実験結果から、目標環境サンプルが制限された場合、MFPGは最大3.9倍の報酬を達成し、高忠実度データのみを使用するベースラインと比較してトレーニング安定性を向上させることが示されている。
さらに、ベースラインがより高忠実なサンプル(ターゲット環境との相互作用の最大10倍)を与えられても、MFPGはそれらにマッチし、より優れています。
最後に,MFPGは,低忠実度環境がターゲット環境と大きく異なる場合でも,効果的な政策を訓練することができることを観察する。
したがって、MFPGは効率的なsim-to-real転送のための新しいパラダイムを提供するだけでなく、ポリシー性能とデータ収集コストのトレードオフを管理するための原則的なアプローチも提供する。
関連論文リスト
- Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Multifidelity Reinforcement Learning with Control Variates [3.2895195535353317]
多くの計算科学や工学の応用において、与えられた入力に対応する興味あるシステムの出力は、異なるコストで異なるレベルの忠実度でクエリすることができる。
本研究では、与えられた制御タスクに対して、異なるレベルの忠実度を持つ複数の環境が存在する場合の強化学習問題について検討する。
状態-作用値関数の推定におけるばらつきを低減するために,低忠実度と高忠実度との相互相関を利用した多忠実度推定器を提案する。
論文 参考訳(メタデータ) (2022-06-10T15:01:37Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。