Fugu-MT 論文翻訳(概要): Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization

論文の概要: Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization

arxiv url: http://arxiv.org/abs/2409.01427v2
Date: Sat, 7 Sep 2024 10:08:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-10 22:55:38.371108
Title: Enhancing Sample Efficiency and Exploration in Reinforcement Learning through the Integration of Diffusion Models and Proximal Policy Optimization
Title（参考訳）: 拡散モデルと近似政策最適化の統合による強化学習におけるサンプル効率の向上と探索
Authors: Gao Tianci, Dmitriev D. Dmitry, Konstantin A. Neusypin, Yang Bo, Rao Shengren,
Abstract要約: オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを導入し,PPOアルゴリズムを強化するフレームワークを提案する。 RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。
参考スコア（独自算出の注目度）: 1.631115063641726
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in reinforcement learning (RL) have been fueled by large-scale data and deep neural networks, particularly for high-dimensional and complex tasks. Online RL methods like Proximal Policy Optimization (PPO) are effective in dynamic scenarios but require substantial real-time data, posing challenges in resource-constrained or slow simulation environments. Offline RL addresses this by pre-learning policies from large datasets, though its success depends on the quality and diversity of the data. This work proposes a framework that enhances PPO algorithms by incorporating a diffusion model to generate high-quality virtual trajectories for offline datasets. This approach improves exploration and sample efficiency, leading to significant gains in cumulative rewards, convergence speed, and strategy stability in complex tasks. Our contributions are threefold: we explore the potential of diffusion models in RL, particularly for offline datasets, extend the application of online RL to offline environments, and experimentally validate the performance improvements of PPO with diffusion models. These findings provide new insights and methods for applying RL to high-dimensional, complex tasks. Finally, we open-source our code at https://github.com/TianciGao/DiffPPO
Abstract（参考訳）: 強化学習(RL)の最近の進歩は、特に高次元および複雑なタスクにおいて、大規模データとディープニューラルネットワークによって加速されている。 PPO(Proximal Policy Optimization)のようなオンラインRL手法は動的シナリオでは有効であるが、かなりのリアルタイムデータを必要とする。 Offline RLは、大規模なデータセットからの事前学習ポリシーによってこの問題に対処するが、その成功はデータの品質と多様性に依存している。本研究では,オフラインデータセットのための高品質な仮想トラジェクトリを生成するために拡散モデルを組み込むことにより,PPOアルゴリズムを強化するフレームワークを提案する。このアプローチは探索とサンプル効率を改善し、複雑なタスクにおける累積報酬、収束速度、戦略安定性を大きく向上させる。 RLにおける拡散モデルの可能性、特にオフラインデータセットについて検討し、オンラインRLをオフライン環境に拡張し、拡散モデルによるPPOの性能改善を実験的に検証する。これらの知見は、RLを高次元の複雑なタスクに適用するための新しい洞察と方法を提供する。最後に、私たちはコードをhttps://github.com/TianciGao/DiffPPOでオープンソース化しました。

関連論文リスト

Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch Reinforcement Learning [31.843129392507716]
Jackpotは、ポリシーとロールアウトモデルを共同で更新する統合トレーニング目標を統合するフレームワークである。我々の理論的分析は、OBRSが制御可能な受理予算の下で、目標分布に近いロールアウト分布を一貫して移動していることを示している。
論文参考訳（メタデータ） (2026-02-05T18:57:01Z)
Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。 DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文参考訳（メタデータ） (2026-02-04T18:59:04Z)
$V_0$: A Generalist Value Model for Any Policy at State Zero [80.7505802128501]
ポリシーメソッドは、アクションの相対的な利点を測定するためにベースラインに依存します。このベースラインは一般的に、政策モデルそのものと同じくらい大きな価値モデル(Critic)によって推定される。未知のプロンプト上での任意のモデルの期待性能を推定できるジェネリスト値モデルを提案する。
論文参考訳（メタデータ） (2026-02-03T14:35:23Z)
A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文参考訳（メタデータ） (2026-01-30T08:47:19Z)
Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文参考訳（メタデータ） (2026-01-13T10:46:06Z)
BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。 BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。 AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文参考訳（メタデータ） (2025-10-21T12:55:04Z)
A KL-regularization framework for learning to plan with adaptive priors [1.0246259631050245]
政策最適化モデル予測制御(PO-MPC)を導入する。 PO-MPCは、政策最適化の先駆けとしてプランナーの行動分布を統合する。実験により,これらの拡張構成により,大幅な性能向上が得られた。
論文参考訳（メタデータ） (2025-10-05T16:45:38Z)
Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文参考訳（メタデータ） (2025-08-05T08:03:12Z)
Leveraging Genetic Algorithms for Efficient Demonstration Generation in Real-World Reinforcement Learning Environments [0.8602553195689513]
強化学習(Reinforcement Learning, RL)は、特定の実世界の産業応用において大きな可能性を証明している。本研究では,遺伝的アルゴリズム(GA)をRL性能向上のメカニズムとして活用することを検討した。本稿では,GAによる専門家による実証実験を政策学習の強化に活用する手法を提案する。
論文参考訳（メタデータ） (2025-07-01T14:04:17Z)
Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。 A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。 PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文参考訳（メタデータ） (2025-05-27T03:58:50Z)
Yes, Q-learning Helps Offline In-Context RL [69.26691452160505]
RL目標の最適化は,広く確立されたアルゴリズム蒸留(AD)ベースラインと比較して,平均で約40%向上することを示す。また、オフラインのRLベースの手法は、オフラインのシナリオに特化して設計されていないオンラインアプローチよりも優れていることも明らかにした。
論文参考訳（メタデータ） (2025-02-24T21:29:06Z)
A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文参考訳（メタデータ） (2024-09-21T15:50:59Z)
D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文参考訳（メタデータ） (2024-08-15T22:27:00Z)
Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。 PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文参考訳（メタデータ） (2023-11-10T03:02:49Z)
Hybrid Reinforcement Learning for Optimizing Pump Sustainability in Real-World Water Distribution Networks [55.591662978280894]
本稿では,実世界の配水ネットワーク(WDN)のリアルタイム制御を強化するために,ポンプスケジューリング最適化問題に対処する。我々の主な目的は、エネルギー消費と運用コストを削減しつつ、物理的な運用上の制約を遵守することである。進化に基づくアルゴリズムや遺伝的アルゴリズムのような伝統的な最適化手法は、収束保証の欠如によってしばしば不足する。
論文参考訳（メタデータ） (2023-10-13T21:26:16Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文参考訳（メタデータ） (2023-06-07T07:51:05Z)
Robust Reinforcement Learning Objectives for Sequential Recommender Systems [7.44049827436013]
我々は、報酬の形で直接ユーザーフィードバックを取り入れ、ユーザのパーソナライズを高めるレコメンデーションシステムを開発する。 RLアルゴリズムを採用することで、政治外のトレーニング、拡張可能なアクションスペース、十分な報酬信号を持つデータセットの不足など、課題が提示される。これらの課題に対して、より効果的な解決策を提供するための拡張された方法論を導入します。
論文参考訳（メタデータ） (2023-05-30T08:09:08Z)
Robust Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
連続的な行動領域では、パラメータ化された行動分布は容易に探索の制御を可能にする。特に,摂動分布を利用したロバストポリシ最適化(RPO)アルゴリズムを提案する。我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。
論文参考訳（メタデータ） (2022-12-14T22:43:56Z)
Federated Deep Reinforcement Learning for the Distributed Control of NextG Wireless Networks [16.12495409295754]
次世代(NextG)ネットワークは、拡張現実(AR)やコネクテッド・自律走行車といった、インターネットの触覚を必要とするアプリケーションをサポートすることが期待されている。データ駆動アプローチは、現在の運用条件に適応するネットワークの能力を改善することができる。深部RL(DRL)は複雑な環境においても良好な性能を発揮することが示されている。
論文参考訳（メタデータ） (2021-12-07T03:13:20Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文参考訳（メタデータ） (2020-12-21T18:28:17Z)
Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。 CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文参考訳（メタデータ） (2020-06-26T17:50:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。