論文の概要: Action-Free Offline-to-Online RL via Discretised State Policies
- arxiv url: http://arxiv.org/abs/2602.00629v1
- Date: Sat, 31 Jan 2026 09:53:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.300213
- Title: Action-Free Offline-to-Online RL via Discretised State Policies
- Title(参考訳): 離散状態ポリシによるアクションフリーオフラインRL
- Authors: Natinael Solomon Neggatu, Jeremie Houssineau, Giovanni Montana,
- Abstract要約: エージェントは$(s,r,s'$s)$sのみからなるデータセットから学ぶ必要がある。
我々は,行動よりも望ましい次の状態遷移を推奨する学習国家政策を提案する。
- 参考スコア(独自算出の注目度): 8.696862667760778
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing offline RL methods presume the availability of action labels within the dataset, but in many practical scenarios, actions may be missing due to privacy, storage, or sensor limitations. We formalise the setting of action-free offline-to-online RL, where agents must learn from datasets consisting solely of $(s,r,s')$ tuples and later leverage this knowledge during online interaction. To address this challenge, we propose learning state policies that recommend desirable next-state transitions rather than actions. Our contributions are twofold. First, we introduce a simple yet novel state discretisation transformation and propose Offline State-Only DecQN (\algo), a value-based algorithm designed to pre-train state policies from action-free data. \algo{} integrates the transformation to scale efficiently to high-dimensional problems while avoiding instability and overfitting associated with continuous state prediction. Second, we propose a novel mechanism for guided online learning that leverages these pre-trained state policies to accelerate the learning of online agents. Together, these components establish a scalable and practical framework for leveraging action-free datasets to accelerate online RL. Empirical results across diverse benchmarks demonstrate that our approach improves convergence speed and asymptotic performance, while analyses reveal that discretisation and regularisation are critical to its effectiveness.
- Abstract(参考訳): 既存のオフラインRLメソッドの多くは、データセット内のアクションラベルの可用性を前提としているが、多くの実践的なシナリオでは、プライバシ、ストレージ、センサーの制限のためにアクションが欠落している可能性がある。
エージェントは$(s,r,s)$ tuplesのみからなるデータセットから学習し、その後、オンラインインタラクション中にこの知識を活用する必要がある。
この課題に対処するために、我々は行動よりも次の状態遷移を推奨する学習状態ポリシーを提案する。
私たちの貢献は2倍です。
まず,動作自由データから状態ポリシーを事前学習するための値ベースアルゴリズムであるオフライン状態オンリーDecQN(\algo)を提案する。
\algo{} は変換を統合して高次元問題に効率よくスケールし、連続状態予測に付随する不安定性と過度な適合を避ける。
第二に、これらの事前訓練された状態ポリシーを利用してオンラインエージェントの学習を加速するガイド付きオンライン学習の新しいメカニズムを提案する。
これらのコンポーネントは、オンラインRLを加速するためにアクションフリーデータセットを活用するスケーラブルで実用的なフレームワークを確立する。
様々なベンチマークによる実験結果から,本手法は収束速度と漸近的性能を向上させる一方で,離散化と正規化が有効性に重要であることが示された。
関連論文リスト
- Behavior-Adaptive Q-Learning: A Unifying Framework for Offline-to-Online RL [3.2883573376133555]
本稿では,オフラインからオンラインRLへのスムーズな移行を可能にするフレームワークである行動適応型Q-Learning(BAQ)を紹介する。
BAQは、(i)不確実性が高い場合のオフライン行動に対してオンラインポリシーを整列させ、(ii)より確実なオンライン体験が蓄積されるにつれて、この制約を徐々に緩和する二重目的損失を包含する。
標準ベンチマーク全体を通じて、BAQは、オフラインからオフラインまでのRLアプローチを一貫して上回り、より高速なリカバリ、堅牢性の向上、全体的なパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-11-05T18:20:23Z) - Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning [9.341618348621662]
オンラインインタラクションの限られた予算の中で、最高のパフォーマンスポリシーを見つけることを目指しています。
まず本研究では,本質的な報酬と UCB に基づくオンラインRL探索手法について検討する。
そして,これらの問題を回避するために,配当を廃止する計画を立てるアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-09T13:47:05Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Behavior Prior Representation learning for Offline Reinforcement
Learning [23.200489608592694]
状態表現の学習にはシンプルで効果的なアプローチを導入する。
我々の手法である振舞い優先表現(BPR)は、データセットの振舞いクローニングに基づいて、容易に統合可能な目的で状態表現を学習する。
既存のオフラインRLアルゴリズムとBPRが組み合わさって、いくつかのオフライン制御ベンチマークにおいて大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-11-02T04:15:20Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。