論文の概要: How to Mitigate the Distribution Shift Problem in Robotics Control: A Robust and Adaptive Approach Based on Offline to Online Imitation Learning
- arxiv url: http://arxiv.org/abs/2605.25414v1
- Date: Mon, 25 May 2026 04:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.285103
- Title: How to Mitigate the Distribution Shift Problem in Robotics Control: A Robust and Adaptive Approach Based on Offline to Online Imitation Learning
- Title(参考訳): ロボット制御における配電シフト問題を緩和する方法:オンライン模倣学習へのオフラインに基づくロバストで適応的なアプローチ
- Authors: Hyung-Suk Yoon, Seung-Woo Seo,
- Abstract要約: 模擬学習における分布シフトとは、エージェントが訓練中に訪れていない状態に対して適切な行動を計画できないという問題を指す。
この問題は、主に、フル環境上で専門家によるデモンストレーションによって提供される、本質的に狭い状態-アクションカバレッジに起因する可能性がある。
我々は、生涯にわたる多相スキームにおける分散シフト問題を処理する、ロバストなオフラインから適応的なオンライン模倣学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.32457564038423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distribution shift in imitation learning refers to the problem that the agent cannot plan proper actions for a state that has not been visited during the training. This problem can be largely attributed to the inherently narrow state-action coverage provided by expert demonstrations over the full environment. In this paper, we propose a robust offline to adaptive online imitation learning framework that handles the distribution shift problem in a lifelong, multi-phase scheme. In the offline learning phase, we leverage supplementary demonstrations to broaden the state-action coverage of the policy by utilizing a discriminator to effectively train the policy with supplementary demonstrations, thereby enhancing the robustness of the policy to distribution shift. In the subsequent online inference phase, our framework detects the occurrence of distribution shift and conducts self-supervised imitation learning from online experiences to adapt the policy to the online environments. Through extensive evaluations in MuJoCo environments, we demonstrate that our method exhibits better robustness to distribution shift and better adaptation performance to online environments than the baseline algorithms, which indicates superior performance of our framework against the distribution shift.
- Abstract(参考訳): 模擬学習における分布シフトとは、エージェントが訓練中に訪れていない状態に対して適切な行動を計画できないという問題を指す。
この問題は、主に、フル環境上で専門家によるデモンストレーションによって提供される、本質的に狭い状態-アクションカバレッジに起因する可能性がある。
本稿では、生涯にわたるマルチフェーズスキームにおける分散シフト問題を処理する、ロバストなオフライン-適応型オンライン模倣学習フレームワークを提案する。
オフライン学習の段階において、我々は、補助的な実演で効果的に政策を訓練するために判別器を利用することで、補助的な実演を活用して政策の状態を拡大し、流通シフトに対する政策の堅牢性を高める。
その後のオンライン推論フェーズにおいて,このフレームワークは分散シフトの発生を検出し,オンライン体験から自己指導型模倣学習を行い,そのポリシーをオンライン環境に適用する。
提案手法は,MuJoCo環境における広範囲な評価を通じて,分布シフトに対するロバスト性やオンライン環境への適応性能が,分布シフトに対するフレームワークの優れた性能を示すベースラインアルゴリズムよりも優れていることを示す。
関連論文リスト
- OLIVIA: Online Learning via Inference-time Action Adaptation for Decision Making in LLM ReAct Agents [74.20327254615854]
大規模言語モデルエージェントは、シーケンシャルな意思決定タスクを解決するために、推論、行動選択、観察をインターリーブする。
LLMエージェントの既存の推論時間適応法は、主にプロンプトや検索に依存している。
提案するOLIVIAは,ReAct型エージェントのための推論時行動適応フレームワークである。
論文 参考訳(メタデータ) (2026-05-11T19:28:20Z) - Adversarial Fine-tuning in Offline-to-Online Reinforcement Learning for Robust Robot Control [12.961180148172199]
本研究では、クリーンなデータに対するポリシーをトレーニングし、敵対的な微調整を行うオフライン・オンライン・フレームワークを提案する。
性能認識カリキュラムは、指数移動平均信号を介してトレーニング中の摂動確率を調整する。
連続制御ロコモーションタスクの実験は、提案手法がオフラインのみのベースラインよりもロバスト性を向上させることを示す。
論文 参考訳(メタデータ) (2025-10-15T09:45:24Z) - Robot Policy Transfer with Online Demonstrations: An Active Reinforcement Learning Approach [3.637365301757111]
本稿では,オンライン・デモテーションを用いたポリシ・トランスファーについて紹介する。
本手法は, 多様な環境特性にまたがる政策伝達を含む8つのロボットシナリオで評価する。
その結果, 本手法は, 平均成功率, サンプル効率において, 全ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-03-17T09:47:42Z) - Distributionally Adaptive Meta Reinforcement Learning [85.17284589483536]
テスト時間分布シフトの下で適切に振る舞うメタRLアルゴリズムのフレームワークを開発する。
我々の枠組みは、分布のロバスト性に対する適応的なアプローチを中心とし、様々なレベルの分布シフトに対してロバストであるようメタポリスの人口を訓練する。
本研究は, 分散シフト下での後悔を改善するための枠組みを示し, シミュレーションロボティクス問題に対する効果を実証的に示す。
論文 参考訳(メタデータ) (2022-10-06T17:55:09Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z) - Variational Beam Search for Learning with Distribution Shifts [26.345665980534374]
i)最小限の連続観測に基づく微妙な分布シフトの推論が可能であり、(ii)それに応じてモデルをオンライン方式で適応できるベイズ式メタアルゴリズムを提案する。
私たちの提案するアプローチはモデルに依存しず、教師なしと教師なしの両方の学習に適用可能であり、最先端のベイズオンライン学習アプローチよりも大幅に改善されます。
論文 参考訳(メタデータ) (2020-12-15T05:28:47Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。