論文の概要: IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.04289v1
- Date: Wed, 04 Mar 2026 17:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.415044
- Title: IPD: Boosting Sequential Policy with Imaginary Planning Distillation in Offline Reinforcement Learning
- Title(参考訳): IPD:オフライン強化学習におけるイマジナリープランニング蒸留によるシークエンシャルポリシーの強化
- Authors: Yihao Qin, Yuanfei Wang, Hang Zhou, Peiran Liu, Hao Dong, Yiding Ji,
- Abstract要約: オフラインプランニングをデータ生成,教師付きトレーニング,オンライン推論にシームレスに組み込む新しいフレームワークである textbfImaginary Planning Distillation (IPD) を提案する。
まず,オフラインデータから不確実性対策と準最適値関数を備えた世界モデルを学習する。
従来の手動で調整した戻り値関数を準最適値関数に置き換えることで、IDDは推論時の意思決定安定性と性能を改善する。
- 参考スコア(独自算出の注目度): 13.655904209137006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decision transformer based sequential policies have emerged as a powerful paradigm in offline reinforcement learning (RL), yet their efficacy remains constrained by the quality of static datasets and inherent architectural limitations. Specifically, these models often struggle to effectively integrate suboptimal experiences and fail to explicitly plan for an optimal policy. To bridge this gap, we propose \textbf{Imaginary Planning Distillation (IPD)}, a novel framework that seamlessly incorporates offline planning into data generation, supervised training, and online inference. Our framework first learns a world model equipped with uncertainty measures and a quasi-optimal value function from the offline data. These components are utilized to identify suboptimal trajectories and augment them with reliable, imagined optimal rollouts generated via Model Predictive Control (MPC). A Transformer-based sequential policy is then trained on this enriched dataset, complemented by a value-guided objective that promotes the distillation of the optimal policy. By replacing the conventional, manually-tuned return-to-go with the learned quasi-optimal value function, IPD improves both decision-making stability and performance during inference. Empirical evaluations on the D4RL benchmark demonstrate that IPD significantly outperforms several state-of-the-art value-based and transformer-based offline RL methods across diverse tasks.
- Abstract(参考訳): 決定変換器に基づくシーケンシャルポリシーは、オフライン強化学習(RL)において強力なパラダイムとして登場したが、その有効性は、静的データセットの品質と固有のアーキテクチャ上の制約によって制限されている。
具体的には、これらのモデルは、最適でない経験を効果的に統合するのに苦労し、最適なポリシーを明示的に計画するのに失敗することが多い。
このギャップを埋めるために、オフラインプランニングをデータ生成、教師付きトレーニング、オンライン推論にシームレスに組み込む新しいフレームワークである「textbf{Imaginary Planning Distillation (IPD)」を提案する。
まず,オフラインデータから不確実性対策と準最適値関数を備えた世界モデルを学習する。
これらのコンポーネントは、最適軌道を識別し、モデル予測制御(MPC)によって生成された、信頼性の高い最適なロールアウトでそれらを拡張するために使用される。
その後、Transformerベースのシーケンシャルポリシーをトレーニングし、最適なポリシーの蒸留を促進する価値誘導目標を補完する。
従来の手動で調整した戻り値関数を準最適値関数に置き換えることで、IDDは推論時の意思決定安定性と性能を改善する。
D4RLベンチマークの実証評価では、PDは様々なタスクにおいて、最先端の値ベースおよびトランスフォーマーベースのオフラインRLメソッドよりも大幅に優れていた。
関連論文リスト
- In-Context Reinforcement Learning From Suboptimal Historical Data [56.60512975858003]
トランスフォーマーモデルは、主にコンテキスト内学習能力によって、目覚ましい経験的成功を収めた。
本稿では,アクタ・クリティカルなアルゴリズムを文脈内でエミュレートする決定重要度変換フレームワークを提案する。
以上の結果から,特にオフラインデータセットが最適な履歴データを含む場合,DITは優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-27T23:13:06Z) - Online Finetuning Decision Transformers with Pure RL Gradients [11.215352918313577]
決定変換器(DT)は、シーケンシャルな意思決定のための強力なフレームワークとして登場した。
純粋強化学習勾配を用いた決定変換器のオンライン微調整を可能にする新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-01-01T02:17:18Z) - EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - POLAR: A Pessimistic Model-based Policy Learning Algorithm for Dynamic Treatment Regimes [15.681058679765277]
オフライン動的処理システム(DTR)のための悲観的モデルに基づくポリシー学習アルゴリズムであるPOLARを提案する。
POLARは、オフラインデータから遷移ダイナミクスを推定し、各ヒストリアクションペアに対する不確実性を定量化する。
平均的なトレーニングパフォーマンスに重点を置く既存の多くの方法とは異なり、POLARは最終学習ポリシーの最適度を直接ターゲットとし、理論的な保証を提供する。
合成データとMIMIC-IIIデータセットの両方の実験結果から、POLARは最先端の手法より優れており、ほぼ最適、歴史に配慮した治療戦略が得られている。
論文 参考訳(メタデータ) (2025-06-25T13:22:57Z) - Model-Based Offline Reinforcement Learning with Adversarial Data Augmentation [36.9134885948595]
本稿では,AdversariaLデータ拡張を用いたモデルベースオフライン強化学習について紹介する。
MoRALでは,エンサンブルモデルと交互サンプリングを行うために,エンサンブルデータ拡張を用いて固定水平線ロールアウトを置き換える。
D4RLベンチマークの実験では、MORALはポリシー学習やサンプル効率の観点から、他のモデルベースのオフラインRLメソッドよりも優れていた。
論文 参考訳(メタデータ) (2025-03-26T07:24:34Z) - Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。
オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。
既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。
我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文 参考訳(メタデータ) (2025-03-15T18:12:16Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。