論文の概要: Rewind-IL: Online Failure Detection and State Respawning for Imitation Learning
- arxiv url: http://arxiv.org/abs/2604.16683v1
- Date: Fri, 17 Apr 2026 20:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.127744
- Title: Rewind-IL: Online Failure Detection and State Respawning for Imitation Learning
- Title(参考訳): Rewind-IL:Imitation Learningのためのオンライン障害検出と状態再起動
- Authors: Gehan Zheng, Sanjay Seenivasan, Matthew Johnson-Roberson, Weiming Zhi,
- Abstract要約: 提案するRewind-ILは,生成アクションチャンク模倣ポリシーのためのトレーニングフリーオンラインセーフガードフレームワークである。
Rewind-ILは、TIDE(Temporal Inter-chunk Discrepancy Estimate)に基づくゼロショット故障検知器と、状態再起動機構を結合する。
オンラインのRewind-ILは、重複するアクションチャンクの自己整合性を監視し、チェックポイントライブラリと類似性を追跡し、失敗すると、実行を最新の検証された安全な状態に戻す。
- 参考スコア(独自算出の注目度): 7.445072780282545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning has enabled robots to acquire complex visuomotor manipulation skills from demonstrations, but deployment failures remain a major obstacle, especially for long-horizon action-chunked policies. Once execution drifts off the demonstration manifold, these policies often continue producing locally plausible actions without recovering from the failure. Existing runtime monitors either require failure data, over-trigger under benign feature drift, or stop at failure detection without providing a recovery mechanism. We present Rewind-IL, a training-free online safeguard framework for generative action-chunked imitation policies. Rewind-IL combines a zero-shot failure detector based on Temporal Inter-chunk Discrepancy Estimate (TIDE), calibrated with split conformal prediction, with a state-respawning mechanism that returns the robot to a semantically verified safe intermediate state. Offline, a vision-language model identifies recovery checkpoints in demonstrations, and the frozen policy encoder is used to construct a compact checkpoint feature database. Online, Rewind-IL monitors self-consistency in overlapping action chunks, tracks similarity to the checkpoint library, and, upon failure, rewinds execution to the latest verified safe state before restarting inference from a clean policy state. Experiments on real-world and simulated long-horizon manipulation tasks, including transfer to flow-matching action-chunked policies, demonstrate that policy-internal consistency coupled with semantically grounded respawning offers a practical route to improved reliability in imitation learning. Supplemental materials are available at https://sjay05.github.io/rewind-il
- Abstract(参考訳): 模倣学習は、ロボットがデモから複雑な視覚運動の操作スキルを習得することを可能にするが、特に長距離アクションチャンクポリシーでは、デプロイメントの失敗が大きな障害となっている。
一度実行が実演多様体から退避すると、これらのポリシーは失敗から回復することなく、しばしば局所的に妥当なアクションを生成し続ける。
既存のランタイムモニタでは、障害データ、良質な機能ドリフト下でのオーバートリガー、あるいはリカバリメカニズムを提供することなく障害検出を停止する必要がある。
提案するRewind-ILは,生成アクションチャンク模倣ポリシーのためのトレーニングフリーオンラインセーフガードフレームワークである。
Rewind-ILは、TIDE(Temporal Inter-chunk Discrepancy Estimate)に基づくゼロショット故障検知器を、分割された共形予測で調整し、ロボットをセマンティックに検証された安全な中間状態に戻す状態再起動機構と組み合わせる。
オフラインでは、視覚言語モデルがデモ中のリカバリチェックポイントを識別し、凍結ポリシエンコーダを使用してコンパクトなチェックポイント特徴データベースを構築する。
オンラインのRewind-ILは、重複するアクションチャンクの自己一貫性を監視し、チェックポイントライブラリと類似性を追跡し、失敗すると、クリーンなポリシー状態から推論を再起動する前に、実行を最新の検証された安全な状態に戻す。
実世界の実験と、フローマッチングアクションチョークされたポリシーへの移行を含む、シミュレーションされたロングホライゾン操作タスクの実験は、ポリシーと内部の一貫性が意味論的に根ざした再起動と組み合わせることで、模倣学習の信頼性を向上させるための実践的な方法が提供されることを実証している。
補足資料はhttps://sjay05.github.io/rewind-ilで入手できる。
関連論文リスト
- Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - A Physical Agentic Loop for Language-Guided Grasping with Execution-State Monitoring [5.437966695589128]
我々は、接地された実行状態上で動作する有界な実施エージェントとして言語誘導の把握を再構築する。
未修正の学習操作プリミティブをラップする物理エージェントループを導入する。
眼内カメラD405を用いた移動マニピュレータのループを検証した。
論文 参考訳(メタデータ) (2026-04-08T08:01:35Z) - Referring-Aware Visuomotor Policy Learning for Closed-Loop Manipulation [91.20850436220267]
Referring-Aware Visuomotor Policy(ReV)について紹介する。
ReVは、人間または高レベルの推論プランナーによって提供されるスパース参照ポイントを組み込む。
これは、専門家のデモンストレーションにターゲットの摂動を適用することでのみ訓練される。
論文 参考訳(メタデータ) (2026-04-07T07:41:11Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Toward Operationalizing Rasmussen: Drift Observability on the Simplex for Evolving Systems [0.0]
障害へのドリフトのモニタリングはユークリッド異常検出によって妨げられる。
ラスムッセンの動的安全モデルは、競合する圧力の下でドリフトを動機付ける。
そこで本研究では,単純度に基づくドリフト可観測性に関するビジョンを提案する。
論文 参考訳(メタデータ) (2026-02-05T09:41:49Z) - Detection and Recovery of Adversarial Slow-Pose Drift in Offloaded Visual-Inertial Odometry [0.0]
エッジサーバにVIOをオフロードする現在のトレンドは、サーバ側の脅威表面を導く可能性がある。
非教師付きラベルなし検出・回復機構を提案する。
ILLIXRテストベッドを用いたリアルオフロードVIO環境におけるアプローチの評価を行った。
論文 参考訳(メタデータ) (2025-09-08T18:31:40Z) - Scene Graph-Guided Proactive Replanning for Failure-Resilient Embodied Agent [9.370683025542686]
本稿では,サブタスク境界における障害の検出と修正を行う,アクティブなリプランニングフレームワークを提案する。
AI2-THORシミュレータの実験では,実行障害発生前の意味的および空間的ミスマッチを検出する。
論文 参考訳(メタデータ) (2025-08-15T07:48:51Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。