論文の概要: Diffusion Guidance Is a Controllable Policy Improvement Operator
- arxiv url: http://arxiv.org/abs/2505.23458v1
- Date: Thu, 29 May 2025 14:06:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.888349
- Title: Diffusion Guidance Is a Controllable Policy Improvement Operator
- Title(参考訳): 拡散誘導は制御可能な政策改善オペレータである
- Authors: Kevin Frans, Seohong Park, Pieter Abbeel, Sergey Levine,
- Abstract要約: CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
- 参考スコア(独自算出の注目度): 98.11511661904618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: At the core of reinforcement learning is the idea of learning beyond the performance in the data. However, scaling such systems has proven notoriously tricky. In contrast, techniques from generative modeling have proven remarkably scalable and are simple to train. In this work, we combine these strengths, by deriving a direct relation between policy improvement and guidance of diffusion models. The resulting framework, CFGRL, is trained with the simplicity of supervised learning, yet can further improve on the policies in the data. On offline RL tasks, we observe a reliable trend -- increased guidance weighting leads to increased performance. Of particular importance, CFGRL can operate without explicitly learning a value function, allowing us to generalize simple supervised methods (e.g., goal-conditioned behavioral cloning) to further prioritize optimality, gaining performance for "free" across the board.
- Abstract(参考訳): 強化学習のコアとなるのは、データのパフォーマンスを超えて学習するという考え方だ。
しかし、そのようなシステムをスケールすることは、非常に難しいことが証明されている。
対照的に、生成モデリングのテクニックは驚くほどスケーラブルで、訓練も簡単である。
本研究では、政策改善と拡散モデルのガイダンスの直接的な関係を導出することにより、これらの強みを組み合わせる。
その結果生まれたフレームワークCFGRLは、教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
特に重要なことは、CFGRLは値関数を明示的に学習することなく操作が可能であり、単純な教師付きメソッド(例えばゴール条件の動作クローン)を一般化することで、最適性をさらに優先順位付けし、ボード全体の"フリー"のパフォーマンスを得ることができます。
関連論文リスト
- What Matters for Batch Online Reinforcement Learning in Robotics? [65.06558240091758]
政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-05-12T21:24:22Z) - RLDG: Robotic Generalist Policy Distillation via Reinforcement Learning [53.8293458872774]
本稿では,RLDG(Reinforcement Learning Distilled Generalists)を提案する。
我々は、RL生成データで訓練されたジェネラリストポリシーが、人間の実演で訓練された者より一貫して優れていたことを実証する。
以上の結果から,タスク固有RLと一般政策蒸留を組み合わせることで,より有能で効率的なロボット操作システムの開発が期待できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-13T04:57:55Z) - Dynamic Learning Rate for Deep Reinforcement Learning: A Bandit Approach [0.9549646359252346]
勾配に基づく手法を用いて訓練された深層強化学習(RL)モデルでは、勾配の選択とその学習速度は優れた性能を達成するために不可欠である。
本稿では,学習中のエージェントのパフォーマンスに基づいて学習率を選択するメタ学習手法である深層強化学習(LRRL)の動的学習率を提案する。
論文 参考訳(メタデータ) (2024-10-16T14:15:28Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Efficient Offline Reinforcement Learning: The Critic is Critical [5.916429671763282]
オフ・ポリシー強化学習は、教師付きアプローチを超えてパフォーマンスを改善するための有望なアプローチを提供する。
本稿では、まず行動方針を学習し、教師付き学習で批判し、その後に非政治強化学習で改善することによるベスト・オブ・ボス・アプローチを提案する。
論文 参考訳(メタデータ) (2024-06-19T09:16:38Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。