論文の概要: World Models for Anomaly Detection during Model-Based Reinforcement Learning Inference
- arxiv url: http://arxiv.org/abs/2503.02552v1
- Date: Tue, 04 Mar 2025 12:25:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:51.508312
- Title: World Models for Anomaly Detection during Model-Based Reinforcement Learning Inference
- Title(参考訳): モデルに基づく強化学習推論における異常検出のための世界モデル
- Authors: Fabian Domberg, Georg Schildbach,
- Abstract要約: 学習ベースのコントローラは、安全性と信頼性に関する懸念から、現実世界のアプリケーションから意図的に排除されることが多い。
モデルベース強化学習における最先端の世界モデルがどのようにトレーニングフェーズを超えて活用され、デプロイされたポリシーが十分に親しみのある状態空間の領域内でのみ動作するかを検討する。
- 参考スコア(独自算出の注目度): 3.591122855617648
- License:
- Abstract: Learning-based controllers are often purposefully kept out of real-world applications due to concerns about their safety and reliability. We explore how state-of-the-art world models in Model-Based Reinforcement Learning can be utilized beyond the training phase to ensure a deployed policy only operates within regions of the state-space it is sufficiently familiar with. This is achieved by continuously monitoring discrepancies between a world model's predictions and observed system behavior during inference. It allows for triggering appropriate measures, such as an emergency stop, once an error threshold is surpassed. This does not require any task-specific knowledge and is thus universally applicable. Simulated experiments on established robot control tasks show the effectiveness of this method, recognizing changes in local robot geometry and global gravitational magnitude. Real-world experiments using an agile quadcopter further demonstrate the benefits of this approach by detecting unexpected forces acting on the vehicle. These results indicate how even in new and adverse conditions, safe and reliable operation of otherwise unpredictable learning-based controllers can be achieved.
- Abstract(参考訳): 学習ベースのコントローラは、安全性と信頼性に関する懸念から、現実世界のアプリケーションから意図的に排除されることが多い。
モデルベース強化学習における最先端の世界モデルがどのようにトレーニングフェーズを超えて活用され、デプロイされたポリシーが十分に親しみのある状態空間の領域内でのみ動作するかを検討する。
これは、世界モデルの予測と推論中の観察されたシステムの振る舞いの相違を継続的に監視することで達成される。
エラーしきい値を超えると、緊急停止などの適切な措置をトリガーすることができる。
これはタスク固有の知識を一切必要とせず、普遍的に適用可能である。
確立されたロボット制御タスクのシミュレーション実験は,局所的なロボット形状や大域的な重力の大きさの変化を認識し,本手法の有効性を示す。
アジャイルクアッドコプターを用いた実世界の実験は、車両に作用する予期せぬ力を検出することによって、このアプローチの利点をさらに実証する。
これらの結果は,新規かつ有害な状況においても,予測不能な学習ベースコントローラの安全かつ信頼性の高い操作が可能であることを示唆している。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
私たちは世界モデルを学ぶための新しいフレームワークを紹介します。
スケーラブルで堅牢なフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Behavioral Cloning Models Reality Check for Autonomous Driving [5.021331908103135]
本稿では, 横方向制御にBC(Behavior Cloning)を用いた現状認識システムの現実的検証について述べる。
データセットは、スケールした研究車両を使用して収集され、さまざまなトラック設定でテストされた。
実験により, リアルタイムに低誤差の操舵角度を推定できることが確認された。
論文 参考訳(メタデータ) (2024-09-11T12:19:38Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Zero-shot Safety Prediction for Autonomous Robots with Foundation World Models [0.12499537119440243]
世界モデルは、コントローラを訓練し、システムの内部のダイナミックモデルを学ぶことによって安全違反を予測するために代理世界を作成する。
本稿では,観察を意味的かつ因果的に潜伏した表現に組み込む基礎世界モデルを提案する。
これにより、Surrogate dynamicsは、トレーニング不要な大規模言語モデルを活用することで、因果先状態を直接予測できる。
論文 参考訳(メタデータ) (2024-03-30T20:03:49Z) - Towards a Framework for Deep Learning Certification in Safety-Critical Applications Using Inherently Safe Design and Run-Time Error Detection [0.0]
航空や他の安全上重要な分野における現実世界の問題について検討し,認定モデルの要件について検討する。
我々は、(i)本質的に安全な設計と(ii)実行時のエラー検出に基づいて、ディープラーニング認定に向けた新しいフレームワークを構築した。
論文 参考訳(メタデータ) (2024-03-12T11:38:45Z) - Self-consistent Validation for Machine Learning Electronic Structure [81.54661501506185]
機械学習と自己整合フィールド法を統合して,検証コストの低減と解釈可能性の両立を実現する。
これにより、積極的学習によるモデルの能力の探索が可能となり、実際の研究への統合への信頼がもたらされる。
論文 参考訳(メタデータ) (2024-02-15T18:41:35Z) - Model-Based Runtime Monitoring with Interactive Imitation Learning [30.70994322652745]
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
本手法は, シミュレーションおよび物理ハードウェアにおいて, 23%, 40%高い成功率で, システムレベルおよび単体テストの基準線を上回り, 性能を向上する。
論文 参考訳(メタデータ) (2023-10-26T16:45:44Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - From Simulation to Real World Maneuver Execution using Deep
Reinforcement Learning [69.23334811890919]
深層強化学習(Deep Reinforcement Learning)は、さまざまな分野における多くの制御タスクを解決できることが証明されている。
これは主に、シミュレーションデータと実世界のデータ間のドメイン適応の欠如と、トレインデータセットとテストデータセットの区別の欠如による。
本稿では,エージェントが同時に訓練される複数の環境に基づくシステムを提案する。
論文 参考訳(メタデータ) (2020-05-13T14:22:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。