論文の概要: Normalizing Flows are Capable Models for RL
- arxiv url: http://arxiv.org/abs/2505.23527v2
- Date: Fri, 30 May 2025 18:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 11:30:18.413786
- Title: Normalizing Flows are Capable Models for RL
- Title(参考訳): 正規化フローはRLの可能なモデルである
- Authors: Raj Ghugare, Benjamin Eysenbach,
- Abstract要約: 本稿では,強化学習アルゴリズムにシームレスに統合した単一正規化フローアーキテクチャを提案する。
提案手法はより単純なアルゴリズムに導かれ,模倣学習,オフライン,目標条件付きRL,教師なしRLにおいて高い性能を実現する。
- 参考スコア(独自算出の注目度): 24.876149287707847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern reinforcement learning (RL) algorithms have found success by using powerful probabilistic models, such as transformers, energy-based models, and diffusion/flow-based models. To this end, RL researchers often choose to pay the price of accommodating these models into their algorithms -- diffusion models are expressive, but are computationally intensive due to their reliance on solving differential equations, while autoregressive transformer models are scalable but typically require learning discrete representations. Normalizing flows (NFs), by contrast, seem to provide an appealing alternative, as they enable likelihoods and sampling without solving differential equations or autoregressive architectures. However, their potential in RL has received limited attention, partly due to the prevailing belief that normalizing flows lack sufficient expressivity. We show that this is not the case. Building on recent work in NFs, we propose a single NF architecture which integrates seamlessly into RL algorithms, serving as a policy, Q-function, and occupancy measure. Our approach leads to much simpler algorithms, and achieves higher performance in imitation learning, offline, goal conditioned RL and unsupervised RL.
- Abstract(参考訳): 現代の強化学習(RL)アルゴリズムは、トランスフォーマーやエネルギーベースモデル、拡散/フローベースモデルといった強力な確率モデルを使用することで成功している。
拡散モデルは表現力があるが、微分方程式の解法に依存するため計算集約的であるのに対し、自己回帰変換モデルはスケーラブルであるが典型的には離散表現の学習を必要とする。
対照的に、正規化フロー(NF)は、微分方程式や自己回帰的アーキテクチャを解くことなく、可能性とサンプリングを可能にするため、魅力的な代替手段であるように見える。
しかしながら、RLにおけるそれらのポテンシャルは、正規化フローに十分な表現性がないという一般的な信念のために、限定的な注目を集めている。
私たちはそうではないことを示します。
NFsにおける最近の研究に基づいて、ポリシー、Q-関数、占有率の指標として機能し、RLアルゴリズムにシームレスに統合する単一のNFアーキテクチャを提案する。
提案手法はより単純なアルゴリズムに導かれ,模倣学習,オフライン,目標条件付きRL,教師なしRLにおいて高い性能を実現する。
関連論文リスト
- Scaling Offline RL via Efficient and Expressive Shortcut Models [13.050231036248338]
ノイズサンプリングプロセスの反復性のため, オフライン強化学習(RL)は依然として困難である。
本稿では、ショートカットモデルを利用してトレーニングと推論の両方をスケールする新しいオフラインRLアルゴリズムであるScalable Offline Reinforcement Learning (SORL)を紹介する。
我々は、SORLがオフラインのRLタスクにまたがって高い性能を達成し、テスト時間計算の増大とともに正のスケーリング挙動を示すことを示した。
論文 参考訳(メタデータ) (2025-05-28T20:59:22Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Physics-Informed Model-Based Reinforcement Learning [19.01626581411011]
従来の強化学習アルゴリズムの欠点の1つは、サンプル効率の低さである。
我々は、その遷移力学と報酬関数のモデルを学び、それを使って想像軌道を生成し、それらをバックプロパゲーションしてポリシーを更新する。
モデルベースRLでは,初期条件に敏感な環境において,モデル精度が重要となることを示す。
また、挑戦的な環境では、物理インフォームドモデルベースRLは最先端のモデルフリーRLアルゴリズムよりも平均回帰性が高いことを示す。
論文 参考訳(メタデータ) (2022-12-05T11:26:10Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - Towards Deeper Deep Reinforcement Learning [42.960199987696306]
コンピュータビジョンや自然言語処理では、最先端の強化学習アルゴリズムは小さな内在性のみを使用することが多い。
データセットのサイズが制限要因ではないことを示し、代わりに、SACのアクターが批判を通じて勾配を取る不安定性が原因であると主張する。
論文 参考訳(メタデータ) (2021-06-02T13:41:02Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。