論文の概要: RAPT: Model-Predictive Out-of-Distribution Detection and Failure Diagnosis for Sim-to-Real Humanoid Robots
- arxiv url: http://arxiv.org/abs/2602.01515v1
- Date: Mon, 02 Feb 2026 01:04:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.827528
- Title: RAPT: Model-Predictive Out-of-Distribution Detection and Failure Diagnosis for Sim-to-Real Humanoid Robots
- Title(参考訳): RAPT:Sim-to-Realヒューマノイドロボットのモデル予測アウト・オブ・ディストリビューション検出と故障診断
- Authors: Humphrey Munn, Brendan Tidd, Peter Bohm, Marcus Gallagher, David Howard,
- Abstract要約: 本稿では,50Hzのヒューマノイド制御のための軽量で自己監督型展開時間モニタRAPTを提案する。
RAPTは,数値シミュレーションから確率的時間的確率多様体を学習し,実行時の予測偏差を評価する。
我々は,シミュレーションおよび物理ハードウェアにおける4つの複雑なタスクに対して,Unitree G1ヒューマノイド上でRAPTを評価する。
- 参考スコア(独自算出の注目度): 1.5765892172285598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying learned control policies on humanoid robots is challenging: policies that appear robust in simulation can execute confidently in out-of-distribution (OOD) states after Sim-to-Real transfer, leading to silent failures that risk hardware damage. Although anomaly detection can mitigate these failures, prior methods are often incompatible with high-rate control, poorly calibrated at the extremely low false-positive rates required for practical deployment, or operate as black boxes that provide a binary stop signal without explaining why the robot drifted from nominal behavior. We present RAPT, a lightweight, self-supervised deployment-time monitor for 50Hz humanoid control. RAPT learns a probabilistic spatio-temporal manifold of nominal execution from simulation and evaluates execution-time predictive deviation as a calibrated, per-dimension signal. This yields (i) reliable online OOD detection under strict false-positive constraints and (ii) a continuous, interpretable measure of Sim-to-Real mismatch that can be tracked over time to quantify how far deployment has drifted from training. Beyond detection, we introduce an automated post-hoc root-cause analysis pipeline that combines gradient-based temporal saliency derived from RAPT's reconstruction objective with LLM-based reasoning conditioned on saliency and joint kinematics to produce semantic failure diagnoses in a zero-shot setting. We evaluate RAPT on a Unitree G1 humanoid across four complex tasks in simulation and on physical hardware. In large-scale simulation, RAPT improves True Positive Rate (TPR) by 37% over the strongest baseline at a fixed episode-level false positive rate of 0.5%. On real-world deployments, RAPT achieves a 12.5% TPR improvement and provides actionable interpretability, reaching 75% root-cause classification accuracy across 16 real-world failures using only proprioceptive data.
- Abstract(参考訳): ヒューマノイドロボットに学習された制御ポリシーを配置することは難しい。シミュレーションで堅牢に見えるポリシーは、Sim-to-Real転送後にOOD(out-of-distriion)ステートで確実に実行でき、ハードウェアの損傷を危険にさらすサイレント障害につながる。
異常検出はこれらの障害を軽減することができるが、事前の手法は高速度制御と互換性がなく、実際の展開に必要な極端に低い偽陽性率で校正されていない場合や、何故ロボットが名目的行動から逸脱したのかを説明せずにバイナリ停止信号を提供するブラックボックスとして動作する場合が多い。
本稿では,50Hzのヒューマノイド制御のための軽量で自己監督型展開時間モニタRAPTを提案する。
RAPTは, 数値シミュレーションから確率的時空間多様体を学習し, 実行時間予測偏差をキャリブレーション毎次元信号として評価する。
これは収量です
一 厳密な偽陽性制約の下での信頼性のあるオンラインOOD検出
(ii)Sim-to-Realミスマッチの連続的解釈可能な尺度。
検出の他に,RAPTの再構成目標から得られる勾配に基づく時間的塩分と,Saliencyと関節キネマティクスに基づくLCMに基づく推論を組み合わせて,ゼロショット設定で意味障害診断を行う,自動熱間後根因解析パイプラインを導入する。
我々は,シミュレーションおよび物理ハードウェアにおける4つの複雑なタスクに対して,Unitree G1ヒューマノイド上でRAPTを評価する。
大規模シミュレーションでは、RAPTはTrue Positive Rate(TPR)を、固定エピソードレベルの偽陽性率0.5%で最強のベースラインよりも37%改善する。
実世界の展開において、RAPTは12.5%のTPR改善を実現し、実行可能な解釈可能性を提供し、16の現実世界の障害に対して75%の根本原因分類精度を達成した。
関連論文リスト
- ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
現在のテスト時間スケーリング(TTS)技術は、推論時にさらなる計算を割り当てることで、大規模言語モデル(LLM)の性能を向上させる。
本稿では,Emphunderline-Agentic underlineRisk-Aware underlineTest-Time Scalingを提案する。
このフレームワークは、実世界の実行前にシミュレーションされたインタラクションを通じてテストタイムの探索を可能にすることで、コミットメントから探索を分離する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation [2.2120851074630177]
ロボット制御タスクでは、シミュレーションにおいて強化学習(RL)によって訓練されたポリシーは、物理ハードウェアにデプロイされた場合、しばしばパフォーマンス低下を経験する。
リプシッツ正則化は、近似値関数勾配の条件付けに役立ち、訓練後のロバスト性の向上につながる。
論文 参考訳(メタデータ) (2024-04-22T05:01:29Z) - Instance-based Learning with Prototype Reduction for Real-Time
Proportional Myocontrol: A Randomized User Study Demonstrating
Accuracy-preserving Data Reduction for Prosthetic Embedded Systems [0.0]
本研究は, 義肢制御におけるジェスチャー検出のためのkNNスキームに基づく学習手法の設計, 実装, 検証を行う。
8チャンネルSEMGアームバンドを用いて,パラメータ化と比例スキームの変化の影響を解析した。
論文 参考訳(メタデータ) (2023-08-21T20:15:35Z) - Physics Informed Neural Networks for Phase Locked Loop Transient
Stability Assessment [0.0]
相ロックループ(PLL)のような電力電子制御器を用いて、グリッドとグリッドの同期性を維持することで、グリッドの故障時に高速な過渡的な動作を引き起こす。
本稿では,少ないラベル付きトレーニングデータを用いて,故障時のコントローラの過渡的ダイナミクスを正確に予測するニューラルネットワークアルゴリズムを提案する。
このアルゴリズムの性能は、CIGREベンチマークモデルC4.49のPSCADにおけるROMとEMTシミュレーションと比較され、グリッドインピーダンスの異なるコントローラの軌道とROAを正確に近似する能力を示している。
論文 参考訳(メタデータ) (2023-03-21T18:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。