論文の概要: Behavior-Adaptive Q-Learning: A Unifying Framework for Offline-to-Online RL
- arxiv url: http://arxiv.org/abs/2511.03695v1
- Date: Wed, 05 Nov 2025 18:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.517782
- Title: Behavior-Adaptive Q-Learning: A Unifying Framework for Offline-to-Online RL
- Title(参考訳): 行動適応型Q-Learning:オフライン対オンラインRLのための統一フレームワーク
- Authors: Lipeng Zu, Hansong Zhou, Xiaonan Zhang,
- Abstract要約: 本稿では,オフラインからオンラインRLへのスムーズな移行を可能にするフレームワークである行動適応型Q-Learning(BAQ)を紹介する。
BAQは、(i)不確実性が高い場合のオフライン行動に対してオンラインポリシーを整列させ、(ii)より確実なオンライン体験が蓄積されるにつれて、この制約を徐々に緩和する二重目的損失を包含する。
標準ベンチマーク全体を通じて、BAQは、オフラインからオフラインまでのRLアプローチを一貫して上回り、より高速なリカバリ、堅牢性の向上、全体的なパフォーマンスの向上を実現している。
- 参考スコア(独自算出の注目度): 3.2883573376133555
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Offline reinforcement learning (RL) enables training from fixed data without online interaction, but policies learned offline often struggle when deployed in dynamic environments due to distributional shift and unreliable value estimates on unseen state-action pairs. We introduce Behavior-Adaptive Q-Learning (BAQ), a framework designed to enable a smooth and reliable transition from offline to online RL. The key idea is to leverage an implicit behavioral model derived from offline data to provide a behavior-consistency signal during online fine-tuning. BAQ incorporates a dual-objective loss that (i) aligns the online policy toward the offline behavior when uncertainty is high, and (ii) gradually relaxes this constraint as more confident online experience is accumulated. This adaptive mechanism reduces error propagation from out-of-distribution estimates, stabilizes early online updates, and accelerates adaptation to new scenarios. Across standard benchmarks, BAQ consistently outperforms prior offline-to-online RL approaches, achieving faster recovery, improved robustness, and higher overall performance. Our results demonstrate that implicit behavior adaptation is a principled and practical solution for reliable real-world policy deployment.
- Abstract(参考訳): オフライン強化学習(RL)は、オンラインインタラクションを伴わない固定データからのトレーニングを可能にするが、分散シフトと、目に見えない状態-動作ペアに対する信頼できない値推定のために、動的環境にデプロイされたときにオフラインで学習するポリシーは、しばしば苦労する。
本稿では,オフラインからオンラインRLへのスムーズで信頼性の高い移行を可能にするフレームワークである,行動適応型Q-Learning(BAQ)を紹介する。
鍵となる考え方は、オフラインデータから派生した暗黙の行動モデルを活用して、オンラインの微調整中に行動一貫性信号を提供することである。
BAQは二重目的損失を組み込む
(i)不確実性が高い場合のオフライン行動に対するオンライン政策の整合性、及び
(二)より自信のあるオンライン体験が蓄積されるにつれて、この制約は徐々に緩和される。
この適応メカニズムは、アウト・オブ・ディストリビューション推定からのエラー伝搬を低減し、早期オンライン更新を安定化し、新しいシナリオへの適応を加速する。
標準ベンチマーク全体を通じて、BAQは、オフラインからオフラインまでのRLアプローチを一貫して上回り、より高速なリカバリ、堅牢性の向上、全体的なパフォーマンスの向上を実現している。
この結果から,暗黙の行動適応は信頼性の高い実世界の政策展開のための原則的かつ実践的な解決策であることが示された。
関連論文リスト
- Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online
Reinforcement Learning [71.02384943570372]
Family Offline-to-Online RL (FamO2O) は、既存のアルゴリズムが状態適応型改善-制約バランスを決定するためのフレームワークである。
FamO2Oは、D4RLベンチマークで最先端のパフォーマンスを達成し、既存の様々な手法よりも統計的に顕著な改善を提供する。
論文 参考訳(メタデータ) (2023-10-27T08:30:54Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。