論文の概要: Max-Entropy Reinforcement Learning with Flow Matching and A Case Study on LQR
- arxiv url: http://arxiv.org/abs/2512.23870v1
- Date: Mon, 29 Dec 2025 21:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.221508
- Title: Max-Entropy Reinforcement Learning with Flow Matching and A Case Study on LQR
- Title(参考訳): フローマッチングによる最大エントロピー強化学習とLQRの事例
- Authors: Yuyang Zhang, Yang Hu, Bo Dai, Na Li,
- Abstract要約: ソフトアクター・クリティック(Soft actor-critic、SAC)は、最大エントロピー強化学習のための一般的なアルゴリズムである。
本研究では、フローベースモデルを用いてポリシーをパラメータ化するSACアルゴリズムの変種を提案する。
オンラインのフローマッチングの変種は、ユーザが特定したサンプリング分布からのサンプルのみを使用したポリシー更新を可能にする。
- 参考スコア(独自算出の注目度): 22.463270191334434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Soft actor-critic (SAC) is a popular algorithm for max-entropy reinforcement learning. In practice, the energy-based policies in SAC are often approximated using simple policy classes for efficiency, sacrificing the expressiveness and robustness. In this paper, we propose a variant of the SAC algorithm that parameterizes the policy with flow-based models, leveraging their rich expressiveness. In the algorithm, we evaluate the flow-based policy utilizing the instantaneous change-of-variable technique and update the policy with an online variant of flow matching developed in this paper. This online variant, termed importance sampling flow matching (ISFM), enables policy update with only samples from a user-specified sampling distribution rather than the unknown target distribution. We develop a theoretical analysis of ISFM, characterizing how different choices of sampling distributions affect the learning efficiency. Finally, we conduct a case study of our algorithm on the max-entropy linear quadratic regulator problems, demonstrating that the proposed algorithm learns the optimal action distribution.
- Abstract(参考訳): ソフトアクター・クリティック(Soft actor-critic、SAC)は、最大エントロピー強化学習のための一般的なアルゴリズムである。
実際には、SACのエネルギーベースの政策は、効率性や頑健さを犠牲にして、単純な政策クラスを用いて近似されることが多い。
本稿では、フローベースモデルを用いてポリシーをパラメータ化し、そのリッチな表現性を活用するSACアルゴリズムの変種を提案する。
本アルゴリズムでは,即時変更可能な手法を用いたフローベースポリシーの評価を行い,本手法で開発したオンラインフローマッチングを用いてポリシーを更新する。
このオンライン版は、重要サンプリングフローマッチング(ISFM)と呼ばれ、未知のターゲット分布ではなく、ユーザが特定したサンプリング分布からのサンプルのみによるポリシー更新を可能にする。
我々は,ISFMの理論的解析を開発し,サンプリング分布の異なる選択が学習効率にどのように影響するかを特徴付ける。
最後に,最大エントロピー線形二次規制問題に対するアルゴリズムのケーススタディを行い,提案アルゴリズムが最適作用分布を学習することを実証した。
関連論文リスト
- One-Step Flow Policy Mirror Descent [52.31612487608593]
Flow Policy Mirror Descent (FPMD)は、フローポリシー推論中の1ステップのサンプリングを可能にするオンラインRLアルゴリズムである。
本手法は, 直流整合モデルにおける単段サンプリングの分散分散と離散化誤差の理論的関係を利用する。
論文 参考訳(メタデータ) (2025-07-31T15:51:10Z) - Efficient Safety Alignment of Large Language Models via Preference Re-ranking and Representation-based Reward Modeling [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。
現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。
モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-13T06:40:34Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。