論文の概要: Adapting Offline Reinforcement Learning with Online Delays
- arxiv url: http://arxiv.org/abs/2506.00131v1
- Date: Fri, 30 May 2025 18:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.382479
- Title: Adapting Offline Reinforcement Learning with Online Delays
- Title(参考訳): オンライン遅延によるオフライン強化学習の適応
- Authors: Simon Sinong Zhan, Qingyuan Wu, Frank Yang, Xiangyu Shi, Chao Huang, Qi Zhu,
- Abstract要約: 強化学習(RL)エージェントのオフラインからオンラインへのデプロイは、2つのギャップを埋めなければならない。
デプロイ時に遅延ダイナミクスに対処するために構築されたオフラインRLフレームワークであるDT-CORLを紹介する。
実験により、DT-CORLは歴史拡張法とバニラ信念に基づく手法の両方を一貫して上回っていることが示された。
- 参考スコア(独自算出の注目度): 6.315616055591389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline-to-online deployment of reinforcement-learning (RL) agents must bridge two gaps: (1) the sim-to-real gap, where real systems add latency and other imperfections not present in simulation, and (2) the interaction gap, where policies trained purely offline face out-of-distribution states during online execution because gathering new interaction data is costly or risky. Agents therefore have to generalize from static, delay-free datasets to dynamic, delay-prone environments. Standard offline RL learns from delay-free logs yet must act under delays that break the Markov assumption and hurt performance. We introduce DT-CORL (Delay-Transformer belief policy Constrained Offline RL), an offline-RL framework built to cope with delayed dynamics at deployment. DT-CORL (i) produces delay-robust actions with a transformer-based belief predictor even though it never sees delayed observations during training, and (ii) is markedly more sample-efficient than na\"ive history-augmentation baselines. Experiments on D4RL benchmarks with several delay settings show that DT-CORL consistently outperforms both history-augmentation and vanilla belief-based methods, narrowing the sim-to-real latency gap while preserving data efficiency.
- Abstract(参考訳): 強化学習(RL)エージェントのオフライン・オンライン展開は,(1)実システムのシミュレーションに遅延や不完全性を付加するsim-to-realギャップ,(2)オンライン実行中に純粋にオフラインでトレーニングされたポリシーが,新たなインタラクションデータを集めるのにコストがかかるかリスクが高いため,インタラクションギャップという2つのギャップを橋渡ししなければならない。
従ってエージェントは、静的で遅延のないデータセットから、動的で遅延を起こしやすい環境へと一般化する必要がある。
標準的なオフラインRLは遅延のないログから学習するが、Markovの仮定を破ってパフォーマンスを損なうような遅延の下で動作しなければならない。
DT-CORL(Delay-Transformer belief policy Constrained Offline RL)は、デプロイ時に遅延ダイナミクスに対処するために開発されたオフラインRLフレームワークである。
DT-Corl
(i)訓練中に遅延観察を決して見ていないにもかかわらず、トランスフォーマーに基づく信念予測器で遅延破壊作用を発生させ、
(ii) は, 履歴増強ベースラインよりも明らかに試料効率が高い。
いくつかの遅延設定によるD4RLベンチマークの実験では、DT-CORLは履歴拡張法とバニラ信念に基づく手法の両方を一貫して上回り、データ効率を保ちながらsim-to-realレイテンシギャップを狭めている。
関連論文リスト
- Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network [23.481553466650453]
本稿では,粗大かつ自己回帰的な方法でQ値をモデル化する値ベースRLアルゴリズムであるARSQを提案する。
ARSQは、連続的な作用空間を粗い階層の離散空間に分解し、きめ細かい連続制御タスクのサンプル効率を高める。
決定ステップごとに次元的行動の利点を自動回帰予測し、継続的な制御タスクにおいてより効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2025-02-01T03:04:53Z) - Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。
Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-12-10T18:57:12Z) - Tackling Data Corruption in Offline Reinforcement Learning via Sequence Modeling [35.2859997591196]
オフラインの強化学習は、データ駆動意思決定のスケーリングを約束する。
しかし、センサーや人間から収集された現実世界のデータには、しばしばノイズやエラーが含まれている。
我々の研究によると、データセットが制限された場合、先行研究はデータの破損の下では不十分である。
論文 参考訳(メタデータ) (2024-07-05T06:34:32Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。