論文の概要: Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.03973v1
- Date: Wed, 03 Dec 2025 17:05:58 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:16:02.141495
- Title: Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning
- Title(参考訳): ガイドラインフローポリシー:オフライン強化学習における高価値行動からの学習
- Authors: Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm, Nicolas Perrin-Gilbert, Justin Carpentier,
- Abstract要約: 本稿では,多段階フローマッチングポリシと蒸留ワンステップアクタを結合したガイドフローポリシーを提案する。
アクターは、重み付けされた振る舞いのクローンを通じてフローポリシーを指示し、データセットから高価値なアクションのクローンに集中する。
この相互誘導により、GFPは144の状態およびピクセルベースのタスクで最先端のパフォーマンスを達成することができる。
- 参考スコア(独自算出の注目度): 10.037416068775853
- License:
- Abstract: Offline reinforcement learning often relies on behavior regularization that enforces policies to remain close to the dataset distribution. However, such approaches fail to distinguish between high-value and low-value actions in their regularization components. We introduce Guided Flow Policy (GFP), which couples a multi-step flow-matching policy with a distilled one-step actor. The actor directs the flow policy through weighted behavior cloning to focus on cloning high-value actions from the dataset rather than indiscriminately imitating all state-action pairs. In turn, the flow policy constrains the actor to remain aligned with the dataset's best transitions while maximizing the critic. This mutual guidance enables GFP to achieve state-of-the-art performance across 144 state and pixel-based tasks from the OGBench, Minari, and D4RL benchmarks, with substantial gains on suboptimal datasets and challenging tasks. Webpage: https://simple-robotics.github.io/publications/guided-flow-policy/
- Abstract(参考訳): オフライン強化学習は、しばしば、データセットの分布に近づき続けるポリシーを強制する行動規則化に依存する。
しかし、そのような手法は正規化成分における高値と低値の作用を区別することができない。
我々は,多段階のフローマッチングポリシーと蒸留ワンステップアクターを結合したガイドフローポリシー(GFP)を導入する。
アクターは、重み付けされた動作のクローンを通じてフローポリシーを指示し、すべての状態-動作ペアを無差別に模倣するのではなく、データセットからの高価値アクションのクローンに集中する。
逆にフローポリシでは,アクタがデータセットのベストトランジションに一致し続けることを制約し,批判を最大化する。
この相互ガイダンスにより、GFPはOGBench、Minari、D4RLベンチマークから144のステートおよびピクセルベースのタスクにまたがる最先端のパフォーマンスを達成できる。
Webページ: https://simple-robotics.github.io/publications/guided-flow-policy/
関連論文リスト
- Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。
本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective [29.977702744504466]
本稿では,オフライン学習におけるアドバンテージ・アウェア政策最適化(A2PO)手法を提案する。
A2POは条件付き変分自動エンコーダを用いて、絡み合った行動ポリシーの動作分布をアンタングルする。
D4RLベンチマークの単一品質データセットと混合品質データセットの両方で実施された実験では、A2POがA2POよりも優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-03-12T02:43:41Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。