論文の概要: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
- arxiv url: http://arxiv.org/abs/2510.13358v1
- Date: Wed, 15 Oct 2025 09:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.604654
- Title: Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control
- Title(参考訳): ロバストロボット制御のためのオフライン・オンライン強化学習における逆調整
- Authors: Shingo Ayabe, Hiroshi Kera, Kazuhiko Kawamoto,
- Abstract要約: 本研究では、クリーンなデータに対するポリシーをトレーニングし、敵対的な微調整を行うオフライン・オンライン・フレームワークを提案する。
性能認識カリキュラムは、指数移動平均信号を介してトレーニング中の摂動確率を調整する。
連続制御ロコモーションタスクの実験は、提案手法がオフラインのみのベースラインよりもロバスト性を向上させることを示す。
- 参考スコア(独自算出の注目度): 12.961180148172199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning enables sample-efficient policy acquisition without risky online interaction, yet policies trained on static datasets remain brittle under action-space perturbations such as actuator faults. This study introduces an offline-to-online framework that trains policies on clean data and then performs adversarial fine-tuning, where perturbations are injected into executed actions to induce compensatory behavior and improve resilience. A performance-aware curriculum further adjusts the perturbation probability during training via an exponential-moving-average signal, balancing robustness and stability throughout the learning process. Experiments on continuous-control locomotion tasks demonstrate that the proposed method consistently improves robustness over offline-only baselines and converges faster than training from scratch. Matching the fine-tuning and evaluation conditions yields the strongest robustness to action-space perturbations, while the adaptive curriculum strategy mitigates the degradation of nominal performance observed with the linear curriculum strategy. Overall, the results show that adversarial fine-tuning enables adaptive and robust control under uncertain environments, bridging the gap between offline efficiency and online adaptability.
- Abstract(参考訳): オフライン強化学習は、リスクの高いオンラインインタラクションを伴わないサンプル効率の高いポリシ取得を可能にするが、静的データセットに基づいてトレーニングされたポリシは、アクチュエータ障害などのアクション空間摂動の下でも不安定である。
本研究では、クリーンなデータに対するポリシーをトレーニングし、逆方向の微調整を行うオフライン・オンライン・フレームワークを紹介し、そこで摂動を強制行動に注入し、補償行動の誘発とレジリエンスの向上を図る。
性能認識カリキュラムは、指数移動平均信号を介してトレーニング中の摂動確率を更に調整し、学習過程を通して堅牢性と安定性のバランスをとる。
連続制御ロコモーションタスクの実験は、提案手法がオフラインのみのベースラインよりも頑健さを一貫して改善し、スクラッチからのトレーニングよりも早く収束することを示した。
微調整条件と評価条件を一致させることで、アクション空間の摂動に対して強い堅牢性が得られる一方、適応型カリキュラム戦略は線形カリキュラム戦略で観測される名目性能の劣化を緩和する。
その結果, 敵の微調整により, 不確実な環境下での適応的かつ堅牢な制御が可能となり, オフライン効率とオンライン適応性のギャップを埋めることができた。
関連論文リスト
- The Three Regimes of Offline-to-Online Reinforcement Learning [22.777667142224587]
オフラインからオンラインへの強化学習(RL)は、トレーニング前のオフラインデータセットと微調整のためのオンラインインタラクションを活用する実用的なパラダイムとして登場した。
この矛盾を説明できる安定性-塑性原理を提案する。
この作業は、オフラインデータセットと事前訓練済みポリシーの相対的なパフォーマンスに基づいて、オフラインからオンラインまでのRLの設計選択を導くための原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2025-10-01T20:58:14Z) - Safe Deployment of Offline Reinforcement Learning via Input Convex Action Correction [9.509828265491064]
オフライン強化学習(オフラインRL)は、化学プロセスシステムにおける制御戦略を開発するための有望なフレームワークを提供する。
本研究は, 常用RLを高効率で高効率に利用し, 室温重合反応器の高効率制御について検討する。
論文 参考訳(メタデータ) (2025-07-30T12:58:02Z) - Robust Deep Reinforcement Learning with Adaptive Adversarial Perturbations in Action Space [3.639580365066386]
本稿では,トレーニング中の対向摂動の影響を調整するための適応的対向係数フレームワークを提案する。
提案手法の特長は,実世界のアプリケーションに簡単にデプロイでき,シミュレータに事前にアクセスする必要がなくなることである。
MuJoCoの実験から,本手法はトレーニングの安定性を向上し,異なるテスト環境に移行する際の堅牢なポリシを学習できることが示された。
論文 参考訳(メタデータ) (2024-05-20T12:31:11Z) - Small Dataset, Big Gains: Enhancing Reinforcement Learning by Offline
Pre-Training with Model Based Augmentation [59.899714450049494]
オフラインの事前トレーニングは、準最適ポリシーを生成し、オンライン強化学習のパフォーマンスを低下させる可能性がある。
本稿では,オフライン強化学習による事前学習のメリットを最大化し,有効となるために必要なデータの規模を削減するためのモデルベースデータ拡張戦略を提案する。
論文 参考訳(メタデータ) (2023-12-15T14:49:41Z) - ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。
Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。
実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-06-12T05:10:10Z) - Adaptive Behavior Cloning Regularization for Stable Offline-to-Online
Reinforcement Learning [80.25648265273155]
オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。
オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。
エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価することを提案する。
実験の結果,提案手法はD4RLベンチマークにおいて,最先端のオフライン-オンライン強化学習性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-10-25T09:08:26Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。