Fugu-MT 論文翻訳(概要): Revisiting Generative Policies: A Simpler Reinforcement Learning Algorithmic Perspective

論文の概要: Revisiting Generative Policies: A Simpler Reinforcement Learning Algorithmic Perspective

arxiv url: http://arxiv.org/abs/2412.01245v1
Date: Mon, 02 Dec 2024 08:06:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.452456
Title: Revisiting Generative Policies: A Simpler Reinforcement Learning Algorithmic Perspective
Title（参考訳）: 生成ポリシーを再考する: より単純な強化学習アルゴリズムの視点から
Authors: Jinouwen Zhang, Rongkun Xue, Yazhe Niu, Yun Chen, Jing Yang, Hongsheng Li, Yu Liu,
Abstract要約: 我々は、様々な生成的政策訓練と展開技術を比較し、分析する。既存のトレーニング目標を2つのカテゴリに分類します。実験により,提案手法はオフラインRLデータセット上での最先端性能を実現することを示す。
参考スコア（独自算出の注目度）: 31.02078397091536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative models, particularly diffusion models, have achieved remarkable success in density estimation for multimodal data, drawing significant interest from the reinforcement learning (RL) community, especially in policy modeling in continuous action spaces. However, existing works exhibit significant variations in training schemes and RL optimization objectives, and some methods are only applicable to diffusion models. In this study, we compare and analyze various generative policy training and deployment techniques, identifying and validating effective designs for generative policy algorithms. Specifically, we revisit existing training objectives and classify them into two categories, each linked to a simpler approach. The first approach, Generative Model Policy Optimization (GMPO), employs a native advantage-weighted regression formulation as the training objective, which is significantly simpler than previous methods. The second approach, Generative Model Policy Gradient (GMPG), offers a numerically stable implementation of the native policy gradient method. We introduce a standardized experimental framework named GenerativeRL. Our experiments demonstrate that the proposed methods achieve state-of-the-art performance on various offline-RL datasets, offering a unified and practical guideline for training and deploying generative policies.
Abstract（参考訳）: 生成モデル(特に拡散モデル)はマルチモーダルデータの密度推定において顕著な成功を収めており、特に連続行動空間における政策モデリングにおいて強化学習(RL)コミュニティから大きな関心を集めている。しかし、既存の研究はトレーニングスキームやRL最適化の目的に大きなバリエーションを示しており、いくつかの手法は拡散モデルにのみ適用できる。本研究では,生成ポリシーアルゴリズムの効果的な設計を同定・検証し,様々な生成ポリシートレーニングと展開手法を比較し,分析する。具体的には、既存のトレーニング目標を再検討し、それらを2つのカテゴリに分類する。最初のアプローチであるジェネレーティブモデルポリシー最適化(GMPO)は、学習目的としてネイティブな優位性重み付け回帰定式化を採用しており、これは従来の方法よりもはるかに単純である。第2のアプローチであるジェネレーティブ・モデル・ポリシー・グラディエント(GMPG)は、ネイティブ・ポリシー・グラディエント・メソッドの数値的に安定した実装を提供する。我々はGenerativeRLという名前の標準化された実験フレームワークを紹介した。提案手法は,様々なオフラインRLデータセット上での最先端性能を実現し,生成ポリシーのトレーニングとデプロイのための統一的で実用的なガイドラインを提供する。

関連論文リスト

Offline Reinforcement Learning with Generative Trajectory Policies [6.501269050121785]
生成モデルは、オフラインの強化学習のための強力なポリシーのクラスとして登場した。遅くて反復的なモデルは計算コストが高く、一貫性ポリシのような高速で単一ステップのモデルは、しばしば性能の低下に悩まされる。提案するジェネレーティブ・トラジェクトリ・ポリティクス(GTP)は,基礎となるODEのソリューションマップ全体を学ぶための,より汎用的な政策パラダイムである。
論文参考訳（メタデータ） (2025-10-13T15:06:28Z)
Reinforcement Learning with Discrete Diffusion Policies for Combinatorial Action Spaces [57.466101098183884]
強化学習(Reinforcement Learning, RL)は、現実の多くの問題に共通する大規模なアクション空間にスケールするために苦労する。本稿では、複雑な環境下での高効率なポリシーとして、離散拡散モデルを訓練するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-26T21:53:36Z)
Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文参考訳（メタデータ） (2025-05-26T03:42:20Z)
RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。 AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文参考訳（メタデータ） (2025-03-25T12:52:38Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
The Virtues of Laziness in Model-based RL: A Unified Objective and Algorithms [37.025378882978714]
モデルベース強化学習(MBRL)における2つの基本的な課題に対処する新しいアプローチを提案する。我々の「怠慢」な手法は、学習された方針と専門家の政策の間のパフォーマンスの違いを捉えるために、モデルにおけるアドバンテージによるパフォーマンスの差異という、新しい統合された目的を生かしている。提案する目的を最適化する2つの非回帰アルゴリズムを提案し,その統計的および計算的ゲインを実証する。
論文参考訳（メタデータ） (2023-03-01T17:42:26Z)
Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文参考訳（メタデータ） (2022-09-29T04:36:23Z)
Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文参考訳（メタデータ） (2022-08-12T09:54:11Z)
Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。強化学習と潜在変数生成モデルの組み合わせを利用する。最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文参考訳（メタデータ） (2022-04-18T22:02:32Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Ready Policy One: World Building Through Active Learning [35.358315617358976]
本稿では,モデルに基づく強化学習を積極的学習問題とみなすフレームワークであるReady Policy One(RP1)を紹介する。 RP1は、最適化中に重要な適応を行うハイブリッド目的関数を利用することで、これを実現する。本手法を各種連続制御タスクにおいて厳密に評価し,既存手法に比べて統計的に有意な向上を示した。
論文参考訳（メタデータ） (2020-02-07T09:57:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。