論文の概要: TAIL-Safe: Task-Agnostic Safety Monitoring for Imitation Learning Policies
- arxiv url: http://arxiv.org/abs/2605.01195v2
- Date: Fri, 08 May 2026 07:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:22.61842
- Title: TAIL-Safe: Task-Agnostic Safety Monitoring for Imitation Learning Policies
- Title(参考訳): TAIL-Safe:Imitation Learning Policiesのタスク非依存型安全監視
- Authors: Riad Ahmed, Momotaz Begum,
- Abstract要約: 我々は、訓練されたILポリシーを識別するための原則化されたアプローチであるTAIL-Safeを、学習タスクの完了を実証的に成功させる安全なセットとして提示する。
フランカ・エミカロボットを用いた実験では、TAIL-Safeでガイドされた場合、実行時の摂動で失敗するフローマッチングポリシーが一貫したタスク成功を達成することを示した。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent imitation learning (IL) algorithms such as flow-matching and diffusion policies demonstrate remarkable performance in learning complex manipulation tasks. However, these policies often fail even when operating within their training distribution due to extreme sensitivity to initial conditions and irreducible approximation errors that lead to compounding drift. This makes it unsafe to deploy IL policies in the field where out-of-distribution scenarios are prevalent. A prerequisite for safe deployment is enabling the policy to determine whether it can execute a task the way it was learned from demonstrations. This paper presents TAIL-Safe, a principled approach to identify, for a trained IL policy, a safe set from where the policy empirically succeeds in completing the learned task. We propose a Lipschitz-continuous Q-value function that maps state-action pairs to a long-term safety score based on three short-term task-agnostic criteria: visibility, recognizability, and graspability. The zero-superlevel set of this function characterizes an empirical control invariant set over state-action pairs. When the nominal policy proposes an action outside this set, we apply a recovery mechanism inspired by Nagumo's theorem that uses gradient ascent to the Q-function to steer the policy back to safety. To learn this Q-function, we construct a high-fidelity digital twin using Gaussian Splatting that enables systematic collection of failure data without risk to physical hardware. Experiments with a Franka Emika robot demonstrate that flow-matching policies, which fail under run-time perturbations, achieve consistent task success when guided by the proposed TAIL-Safe.
- Abstract(参考訳): フローマッチングや拡散ポリシといった最近の模倣学習(IL)アルゴリズムは複雑な操作タスクの学習において顕著な性能を示している。
しかしながら、これらのポリシーは、初期条件に対する過度な感度と複雑なドリフトにつながる既約近似誤差のために、トレーニング分布内で動作しても失敗することが多い。
これにより、アウト・オブ・ディストリビューションのシナリオが普及している分野において、ILポリシーをデプロイするのは安全ではない。
安全なデプロイメントの前提条件は、デモから学んだ方法でタスクを実行することができるかどうかをポリシーが決定できるようにすることである。
本稿では、訓練済みのILポリシーを識別するための原則的アプローチであるTAIL-Safeを提案する。
リプシッツ連続Q値関数は,3つの短期的タスク非依存基準(可視性,認識可能性,把握可能性)に基づいて,状態-動作ペアを長期安全スコアにマッピングする。
この関数の零スーパーレベル集合は、状態-作用対上の経験的制御不変集合を特徴づける。
名目上のポリシーがこの集合の外側で作用を提案するとき、ナグモの定理にインスパイアされた回復機構を適用する。
このQ-関数を学習するために,Gaussian Splatting を用いた高忠実なディジタルツインを構築した。
フランカ・エミカロボットを用いた実験では、実行時の摂動で失敗するフローマッチングポリシーが、提案されたTAIL-Safeでガイドされた場合、一貫したタスク成功を達成することを示した。
関連論文リスト
- Safe-Support Q-Learning: Learning without Unsafe Exploration [5.892169642535822]
トレーニング中の安全でない状態訪問を解消するQラーニングに基づく安全なRLフレームワークを提案する。
誘導軌道が安全な集合内にあるという仮定の下で、このポリシーは、ほぼ最適性を必要とせず、安全な領域内で十分な探索を可能にする。
実験結果から,提案手法は安定な学習とよく校正された値推定を実現し,既存のベースラインと同等あるいは優れた性能で安全な振る舞いを得られることが示された。
論文 参考訳(メタデータ) (2026-04-28T08:43:39Z) - When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering [10.01278648231868]
ポリシーステアリングは、デプロイ時にロボットの振る舞いを適用する新しい方法です。
VLM(Vision-Language Models)は、それらの推論能力のために、汎用的な検証を約束する。
セマンティックタスクの不確実性と低レベルのアクション実現可能性について共同で理由づけるフレームワークである不確実性対応型ポリシーステアリング(UPS)を提案する。
論文 参考訳(メタデータ) (2026-02-25T23:23:22Z) - Learning Verifiable Control Policies Using Relaxed Verification [49.81690518952909]
本研究は,実行中にプロパティを評価可能なポリシを目標として,トレーニングを通じて検証を実施することを提案する。
アプローチは、微分可能な到達可能性分析を使用して、新しいコンポーネントを損失関数に組み込むことである。
論文 参考訳(メタデータ) (2025-04-23T16:54:35Z) - SPoRt -- Safe Policy Ratio: Certified Training and Deployment of Task Policies in Model-Free RL [54.022106606140774]
本研究では,モデルフリーでエピソードな環境において,新しいタスク固有ポリシーの安全性特性に違反する確率に制約を課す理論的結果を示す。
この境界は、時間的に拡張された性質(安全性の他に)や堅牢な制御問題にも適用できる。
本研究は,このトレードオフを実証し,経験的違反率から得られる理論的境界と後続境界とを比較した実験結果である。
論文 参考訳(メタデータ) (2025-04-08T19:09:07Z) - Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。
我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。
本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:54:38Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learn Zero-Constraint-Violation Policy in Model-Free Constrained
Reinforcement Learning [7.138691584246846]
本稿では,安全指向エネルギー関数を用いてポリシー更新を限定するセーフセットアクタクリティカル(SSAC)アルゴリズムを提案する。
安全指数は、潜在的に危険な行動のために急速に増加するように設計されている。
我々は、値関数の学習と同様に、モデルのない方法でエネルギー関数を学習できると主張する。
論文 参考訳(メタデータ) (2021-11-25T07:24:30Z) - Learning to Be Cautious [45.06179623100775]
強化学習の分野における重要な課題は、新しい状況下で慎重に行動するエージェントを開発することである。
注意深い行動がますます不要になるタスクのシーケンスと、システムが注意深いことを学習できることを実証するアルゴリズムを提示する。
論文 参考訳(メタデータ) (2021-10-29T16:52:45Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。