論文の概要: Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback
- arxiv url: http://arxiv.org/abs/2603.04029v1
- Date: Wed, 04 Mar 2026 13:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.313286
- Title: Self-adapting Robotic Agents through Online Continual Reinforcement Learning with World Model Feedback
- Title(参考訳): 世界モデルフィードバックを用いたオンライン連続強化学習による自己適応型ロボットエージェント
- Authors: Fabian Domberg, Georg Schildbach,
- Abstract要約: この作業は、デプロイ中の自動適応を可能にするオンライン連続強化学習のためのフレームワークを提供する。
提案手法は,世界モデル予測残差を利用して分布外事象を検出し,自動的に微調整をトリガーする。
このアプローチは、高忠実度シミュレーションにおける四足歩行ロボットを含む、様々な現代の連続制御問題に対して検証される。
- 参考スコア(独自算出の注目度): 2.165723322157105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As learning-based robotic controllers are typically trained offline and deployed with fixed parameters, their ability to cope with unforeseen changes during operation is limited. Biologically inspired, this work presents a framework for online Continual Reinforcement Learning that enables automated adaptation during deployment. Building on DreamerV3, a model-based Reinforcement Learning algorithm, the proposed method leverages world model prediction residuals to detect out-of-distribution events and automatically trigger finetuning. Adaptation progress is monitored using both task-level performance signals and internal training metrics, allowing convergence to be assessed without external supervision and domain knowledge. The approach is validated on a variety of contemporary continuous control problems, including a quadruped robot in high-fidelity simulation, and a real-world model vehicle. Relevant metrics and their interpretation are presented and discussed, as well as resulting trade-offs described. The results sketch out how autonomous robotic agents could once move beyond static training regimes toward adaptive systems capable of self-reflection and -improvement during operation, just like their biological counterparts.
- Abstract(参考訳): 学習ベースのロボットコントローラは、通常オフラインでトレーニングされ、固定パラメータでデプロイされるため、操作中に予期せぬ変更に対処する能力は制限される。
生物学的にインスパイアされたこの研究は、デプロイ中の自動適応を可能にするオンライン連続強化学習のためのフレームワークを提供する。
モデルベースReinforcement LearningアルゴリズムであるDreamerV3をベースとした提案手法は,世界モデル予測残差を利用して分布外事象を検出し,ファインタニングを自動的にトリガする。
適応の進捗はタスクレベルのパフォーマンス信号と内部トレーニングメトリクスの両方を使用して監視され、外部の監視やドメイン知識なしに収束を評価することができる。
このアプローチは、高忠実度シミュレーションにおける四足歩行ロボットや現実世界のモデル車両など、様々な現代の連続制御問題に対して検証されている。
関連するメトリクスとその解釈が提示され、議論され、結果のトレードオフが説明されます。
その結果は、自律的なロボットエージェントが、生物学的なエージェントと同じように、自己回帰と-改善が可能な適応システムに向けて、静的なトレーニング体制を超えて、いかにして自律的なロボットエージェントが移動できるかを描いている。
関連論文リスト
- From Physics to Machine Learning and Back: Part II - Learning and Observational Bias in PHM [52.64097278841485]
物理インフォームドモデリングとデータストラテジーによる学習と観察バイアスの導入は、モデルを物理的に一貫した信頼性のある予測へと導くことができるかを検討する。
メタラーニングや少数ショットラーニングなどの高速適応手法をドメイン一般化手法とともに検討する。
論文 参考訳(メタデータ) (2025-09-25T14:15:43Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - World Models for Anomaly Detection during Model-Based Reinforcement Learning Inference [3.591122855617648]
学習ベースのコントローラは、安全性と信頼性に関する懸念から、現実世界のアプリケーションから意図的に排除されることが多い。
モデルベース強化学習における最先端の世界モデルがどのようにトレーニングフェーズを超えて活用され、デプロイされたポリシーが十分に親しみのある状態空間の領域内でのみ動作するかを検討する。
論文 参考訳(メタデータ) (2025-03-04T12:25:01Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - AdaCropFollow: Self-Supervised Online Adaptation for Visual Under-Canopy Navigation [31.214318150001947]
アンダーキャノピー農業ロボットは、精密なモニタリング、スプレー、雑草、植物操作などの様々な応用を可能にする。
本稿では,視覚的基礎モデル,幾何学的事前,擬似ラベリングを用いて意味キーポイント表現を適応するための自己教師付きオンライン適応手法を提案する。
これにより、人間による介入を必要とせずに、畑や作物をまたがるアンダーキャノピーロボットの完全な自律的な行追尾が可能になる。
論文 参考訳(メタデータ) (2024-10-16T09:52:38Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control [46.81433026280051]
本稿では,非線形ロボットシステムの力学を積極的にモデル化する自己教師型学習手法を提案する。
我々のアプローチは、目に見えない飛行条件に一貫して適応することで、高いレジリエンスと一般化能力を示す。
論文 参考訳(メタデータ) (2022-10-23T00:45:05Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。