論文の概要: Latent Policy Steering through One-Step Flow Policies
- arxiv url: http://arxiv.org/abs/2603.05296v1
- Date: Thu, 05 Mar 2026 15:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.302617
- Title: Latent Policy Steering through One-Step Flow Policies
- Title(参考訳): ワンステップフローポリシによる潜在政策ステアリング
- Authors: Hokyun Im, Andrey Kolobov, Jianlong Fu, Youngwoon Lee,
- Abstract要約: オフライン強化学習(RL)により、ロボットはリスクを伴わないオフラインデータセットから学習することができる。
遅延ポリシーステアリング(LPS)は、一段階のMeanFlowポリシを通じて、原アクション空間のQ段階をバックプロパゲートすることで、高忠実な遅延ポリシーの改善を可能にする。
OGBenchと現実世界のロボットタスク全体で、LPSは最先端のパフォーマンスを達成し、行動的クローン化と強力な潜在的ステアリングベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 34.06099184809882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) allows robots to learn from offline datasets without risky exploration. Yet, offline RL's performance often hinges on a brittle trade-off between (1) return maximization, which can push policies outside the dataset support, and (2) behavioral constraints, which typically require sensitive hyperparameter tuning. Latent steering offers a structural way to stay within the dataset support during RL, but existing offline adaptations commonly approximate action values using latent-space critics learned via indirect distillation, which can lose information and hinder convergence. We propose Latent Policy Steering (LPS), which enables high-fidelity latent policy improvement by backpropagating original-action-space Q-gradients through a differentiable one-step MeanFlow policy to update a latent-action-space actor. By eliminating proxy latent critics, LPS allows an original-action-space critic to guide end-to-end latent-space optimization, while the one-step MeanFlow policy serves as a behavior-constrained generative prior. This decoupling yields a robust method that works out-of-the-box with minimal tuning. Across OGBench and real-world robotic tasks, LPS achieves state-of-the-art performance and consistently outperforms behavioral cloning and strong latent steering baselines.
- Abstract(参考訳): オフライン強化学習(RL)により、ロボットは危険な探索なしにオフラインデータセットから学習することができる。
しかし、オフラインRLのパフォーマンスは、(1)リターン最大化(データセットサポートの外でポリシーをプッシュできる)と(2)敏感なハイパーパラメータチューニングを必要とする動作制約(英語版)の間の不安定なトレードオフに悩まされることが多い。
潜在ステアリングは、RL中にデータセットサポート内に留まる構造的な方法を提供するが、既存のオフライン適応は、間接蒸留を通じて学習した潜在空間批評家を用いて、通常、アクション値に近似し、情報を失い、収束を妨げる。
そこで本稿では,Latent Policy Steering(LPS)を提案する。これは,Latent-action-space Q-gradientsのバックプロパゲーションを,一段階のMeanFlowポリシーによって実現し,Latent-action-space actorの更新を可能にする。
LPSは代行代行代行代行代行代行を排除し、原文代行代行代行代行代行がエンドツーエンド代行代行代行代行の最適化を誘導する一方、ワンステップ代行代行代行代行代行は行動制約代行代行として機能する。
このデカップリングは、最小限のチューニングでボックス外で機能するロバストなメソッドをもたらす。
OGBenchと現実世界のロボットタスク全体で、LPSは最先端のパフォーマンスを達成し、行動的クローン化と強力な潜在的ステアリングベースラインを一貫して上回っている。
関連論文リスト
- ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation [20.162114513881118]
オフライン強化学習(RL)は、環境の相互作用を伴わずに行動ポリシーによって生成された固定データセットから最適なポリシーを学ぶことを目的としている。
構築による制約の少ないサポート制約を強制するフローポリシーに基づくオフラインRL手法であるReFORMを提案する。
論文 参考訳(メタデータ) (2026-02-04T21:03:11Z) - Q-learning with Adjoint Matching [58.78551025170267]
本稿では,新しいTD-based reinforcement learning (RL)アルゴリズムであるAdjoint Matching (QAM) を用いたQ-learningを提案する。
QAMは、最近提案された生成モデリング手法であるadjoint matchingを活用することで、2つの課題を回避している。
オフラインとオフラインの両方のRLにおいて、ハードでスパースな報酬タスクに対する従来のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2026-01-20T18:45:34Z) - Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning [10.037416068775853]
本稿では,多段階フローマッチングポリシと蒸留ワンステップアクタを結合したガイドフローポリシーを提案する。
アクターは、重み付けされた振る舞いのクローンを通じてフローポリシーを指示し、データセットから高価値なアクションのクローンに集中する。
この相互誘導により、GFPは144の状態およびピクセルベースのタスクで最先端のパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-12-03T17:05:58Z) - Double Check My Desired Return: Transformer with Target Alignment for Offline Reinforcement Learning [64.6334337560557]
教師付き学習(RvS)による強化学習は、シーケンスモデリングタスクとしてオフラインRLをフレーム化する。
決定変換器(DT)は、実際の完了したリターンを特定のターゲットリターンと確実に整合させるのに苦労する。
そこで我々は,Offline RLの目標アライメントによる変換器の二重チェックを行う新しいアプローチであるDoctorを提案する。
論文 参考訳(メタデータ) (2025-08-22T14:30:53Z) - EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Flow-Based Single-Step Completion for Efficient and Expressive Policy Learning [0.0]
そこで本研究では,中間フローサンプルから直接完了ベクトルを予測するために,フローマッチングを改良した生成ポリシーを提案する。
我々の手法はオフライン、オフライン、オンラインのRL設定に効果的にスケールし、スピードと適応性を大幅に向上させる。
我々はSSCPをゴール条件付きRLに拡張し、フラットポリシーが明確な階層的推論なしでサブゴナル構造を活用できるようにする。
論文 参考訳(メタデータ) (2025-06-26T16:09:53Z) - Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and
Stable Online Fine-Tuning [7.462336024223669]
主な課題は、データに存在しないアクションに対する過大評価バイアスを克服することである。
このバイアスを減らすための簡単な方法は、行動的クローニング(BC)を通じてポリシー制約を導入することである。
私たちは、BCコンポーネントの影響を減らしながら、ポリシーをオフラインでトレーニングし続けることで、洗練されたポリシーを作成できることを実証します。
論文 参考訳(メタデータ) (2022-11-21T19:10:27Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Supported Policy Optimization for Offline Reinforcement Learning [74.1011309005488]
オフライン強化学習(RL)に対する政策制約手法は、通常、パラメータ化や正規化を利用する。
規則化手法は学習方針と行動方針の分岐を減少させる。
本稿では、密度に基づくサポート制約の理論的定式化から直接導出した支援政策最適化(SPOT)について述べる。
論文 参考訳(メタデータ) (2022-02-13T07:38:36Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。