論文の概要: A Multi-Fidelity Control Variate Approach for Policy Gradient Estimation
- arxiv url: http://arxiv.org/abs/2503.05696v3
- Date: Thu, 02 Oct 2025 18:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:51.902512
- Title: A Multi-Fidelity Control Variate Approach for Policy Gradient Estimation
- Title(参考訳): ポリシーグラディエント推定のための多要素制御変数アプローチ
- Authors: Xinjie Liu, Cyrus Neary, Kushagra Gupta, Wesley A. Suttle, Christian Ellis, Ufuk Topcu, David Fridovich-Keil,
- Abstract要約: 強化学習アルゴリズムは、運用システムへの展開や高価な高忠実度シミュレーションによるトレーニングには実用的ではない。
低忠実度シミュレータは、ゼロショット転送には大きすぎるとしても、RLトレーニングに有用なデータを提供することができる。
ターゲット環境から少量のデータを混合する多要素ポリシーロボティクス(Gs)を提案する。
- 参考スコア(独自算出の注目度): 22.095132833345776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many reinforcement learning (RL) algorithms are impractical for deployment in operational systems or for training with computationally expensive high-fidelity simulations, as they require large amounts of data. Meanwhile, low-fidelity simulators -- such as reduced-order models, heuristic rewards, or generative world models -- can cheaply provide useful data for RL training, even if they are too coarse for zero-shot transfer. We propose multi-fidelity policy gradients (MFPGs), an RL framework that mixes a small amount of data from the target environment with a control variate formed from a large volume of low-fidelity simulation data to construct an unbiased, variance-reduced estimator for on-policy policy gradients. We instantiate the framework with a multi-fidelity variant of the classical REINFORCE algorithm. We show that under standard assumptions, the MFPG estimator guarantees asymptotic convergence of REINFORCE to locally optimal policies in the target environment, and achieves faster finite-sample convergence rates compared to training with high-fidelity data alone. Empirically, we evaluate the MFPG algorithm across a suite of simulated robotics benchmark tasks with limited high-fidelity data but abundant off-dynamics, low-fidelity data. With mild-moderate dynamics gaps, MFPG reliably improves the median performance over a high-fidelity-only baseline, matching the performance of leading multi-fidelity baselines despite its simplicity and minimal tuning overhead. Under large dynamics gaps, MFPG demonstrates the strongest robustness among the evaluated multi-fidelity approaches. An additional experiment shows that MFPG can remain effective even under low-fidelity reward misspecification. Thus, MFPG not only offers a novel paradigm for efficient sim-to-real transfer but also provides a principled approach to managing the trade-off between policy performance and data collection costs.
- Abstract(参考訳): 多くの強化学習(RL)アルゴリズムは、大量のデータを必要とするため、運用システムへの展開や計算コストの高い高忠実度シミュレーションによるトレーニングには実用的ではない。
一方、低忠実度シミュレーター(例えば、低次モデル、ヒューリスティック報酬、ジェネレーティブワールドモデルなど)は、ゼロショット転送には大きすぎるとしても、安価にRLトレーニングに有用なデータを提供することができる。
本稿では,多面的政策勾配(MFPGs)を提案する。これは,ターゲット環境から少量のデータと,多数の低忠実度シミュレーションデータから生成される制御変数を混合し,不偏分散推定器を構築するための,多面的政策勾配(MFPGs)である。
我々は,従来のREINFORCEアルゴリズムの多元性変種を用いて,フレームワークをインスタンス化する。
MFPG推定器は,基準条件下では,REINFORCEの局所的最適ポリシへの漸近収束を保証し,高忠実度データのみを用いたトレーニングと比較して,より高速な有限サンプル収束率を実現する。
実験により,本アルゴリズムは,高忠実度データに制限があるが,非流動性,低忠実度データに富む,シミュレーションされたロボットベンチマークタスク群に対して,MFPGアルゴリズムの評価を行った。
軽度モデレートのダイナミックスギャップにより、MFPGは高忠実度のみのベースラインよりも中央値のパフォーマンスを確実に改善し、単純で最小限のチューニングオーバーヘッドにもかかわらず、最上位のマルチ忠実度ベースラインのパフォーマンスに適合する。
大きなダイナミックスギャップの下では、MFPGは評価された多重忠実度アプローチの強い強靭性を示す。
追加の実験では、MFPGは低忠実度報酬の不特定の下でも有効であることが示されている。
したがって、MFPGは効率的なsim-to-real転送のための新しいパラダイムを提供するだけでなく、ポリシー性能とデータ収集コストのトレードオフを管理するための原則的なアプローチも提供する。
関連論文リスト
- Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。
本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文 参考訳(メタデータ) (2025-07-15T06:24:07Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Multifidelity Reinforcement Learning with Control Variates [3.2895195535353317]
多くの計算科学や工学の応用において、与えられた入力に対応する興味あるシステムの出力は、異なるコストで異なるレベルの忠実度でクエリすることができる。
本研究では、与えられた制御タスクに対して、異なるレベルの忠実度を持つ複数の環境が存在する場合の強化学習問題について検討する。
状態-作用値関数の推定におけるばらつきを低減するために,低忠実度と高忠実度との相互相関を利用した多忠実度推定器を提案する。
論文 参考訳(メタデータ) (2022-06-10T15:01:37Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。
MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。
これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文 参考訳(メタデータ) (2021-12-06T06:55:51Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient
Learning [35.044047991893365]
本研究は,政策カバーグラディエント(PC-PG)アルゴリズムを導入し,政策(政策カバー)のアンサンブルを用いて,探索対搾取トレードオフのバランスをとる。
我々は,PC-PG が標準最悪の場合である $ell_infty$ の仮定を超越したモデル不特定性の下で強い保証を持つことを示す。
また、報酬なしと報酬駆動の両方の設定において、様々な領域にまたがる経験的評価で理論を補完する。
論文 参考訳(メタデータ) (2020-07-16T16:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。