論文の概要: Flow Q-Learning
- arxiv url: http://arxiv.org/abs/2502.02538v1
- Date: Tue, 04 Feb 2025 18:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:02:39.304319
- Title: Flow Q-Learning
- Title(参考訳): Flow Q-Learning
- Authors: Seohong Park, Qiyang Li, Sergey Levine,
- Abstract要約: 簡単なオフライン強化学習(RL)手法であるフローQ-ラーニング(FQL)を提案する。
FQLは、値を最大化するイテレーティブフローポリシを直接指導するのではなく、表現力のあるワンステップポリシをRLでトレーニングする。
FQLは73の州およびピクセルベースのOGBenchタスクとD4RLタスクに強いパフォーマンスをもたらすことを実験的に示す。
- 参考スコア(独自算出の注目度): 61.60383927357656
- License:
- Abstract: We present flow Q-learning (FQL), a simple and performant offline reinforcement learning (RL) method that leverages an expressive flow-matching policy to model arbitrarily complex action distributions in data. Training a flow policy with RL is a tricky problem, due to the iterative nature of the action generation process. We address this challenge by training an expressive one-step policy with RL, rather than directly guiding an iterative flow policy to maximize values. This way, we can completely avoid unstable recursive backpropagation, eliminate costly iterative action generation at test time, yet still mostly maintain expressivity. We experimentally show that FQL leads to strong performance across 73 challenging state- and pixel-based OGBench and D4RL tasks in offline RL and offline-to-online RL. Project page: https://seohong.me/projects/fql/
- Abstract(参考訳): 本稿では、データ中の任意の複雑な動作分布をモデル化するために、表現型フローマッチングポリシーを活用する、単純で高性能なオフライン強化学習(RL)手法であるフローQ-ラーニング(FQL)を提案する。
RLを用いたフローポリシーのトレーニングは、アクション生成プロセスの反復的な性質のため、難しい問題である。
この課題に対処するために、反復フローポリシーを最大化するために直接指導するのではなく、RLで表現力のあるワンステップポリシーを訓練する。
このようにして、不安定な再帰的バックプロパゲーションを完全に回避し、テスト時にコストのかかる反復的なアクション生成を排除できます。
FQLは、オフラインのRLとオフラインのRLにおいて、73の挑戦的な状態と画素ベースのOGBenchおよびD4RLタスクに強いパフォーマンスをもたらすことを実験的に示す。
プロジェクトページ: https://seohong.me/projects/fql/
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Boosting Offline Reinforcement Learning with Residual Generative
Modeling [27.50950972741753]
オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。
提案手法は,異なるベンチマークデータセットにおいて,より正確なポリシー近似を学習可能であることを示す。
さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。
論文 参考訳(メタデータ) (2021-06-19T03:41:14Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。