論文の概要: SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories
- arxiv url: http://arxiv.org/abs/2511.08136v1
- Date: Wed, 12 Nov 2025 01:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.660666
- Title: SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories
- Title(参考訳): SafeMIL:非推奨軌道からのオフライン安全な模倣政策の学習
- Authors: Returaj Burnwal, Nirav Pravinbhai Bhatt, Balaraman Ravindran,
- Abstract要約: オフライン型安全な模倣学習(IL)の課題について検討する。
本稿では,状態-作用対が危険であるかどうかを予測するパラメータ化コストを学習するための新しい手法であるSafeMILを提案する。
学習したコストは、非推奨の行動を避けるために使用され、結果として安全を優先する方針が導かれる。
- 参考スコア(独自算出の注目度): 5.52395321369933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we study the problem of offline safe imitation learning (IL). In many real-world settings, online interactions can be risky, and accurately specifying the reward and the safety cost information at each timestep can be difficult. However, it is often feasible to collect trajectories reflecting undesirable or risky behavior, implicitly conveying the behavior the agent should avoid. We refer to these trajectories as non-preferred trajectories. Unlike standard IL, which aims to mimic demonstrations, our agent must also learn to avoid risky behavior using non-preferred trajectories. In this paper, we propose a novel approach, SafeMIL, to learn a parameterized cost that predicts if the state-action pair is risky via \textit{Multiple Instance Learning}. The learned cost is then used to avoid non-preferred behaviors, resulting in a policy that prioritizes safety. We empirically demonstrate that our approach can learn a safer policy that satisfies cost constraints without degrading the reward performance, thereby outperforming several baselines.
- Abstract(参考訳): 本研究では,オフライン型安全な模倣学習(IL)の問題について検討する。
多くの実世界の環境では、オンラインインタラクションはリスクが高く、各時点における報酬と安全コスト情報を正確に特定することは困難である。
しかし、しばしば、望ましくない行動や危険な行動を反映し、エージェントが避けるべき振る舞いを暗黙的に伝達する軌跡を収集することは可能である。
これらの軌跡を非優先軌跡と呼ぶ。
実演を模倣することを目的とした標準ILとは異なり、エージェントは非推奨軌道を用いた危険行動の回避も学ばなければならない。
本稿では,状態-動作ペアがリスクがあるかどうかを予測するパラメータ化コストを,‘textit{Multiple Instance Learning} を通じて学習するための新しいアプローチ SafeMIL を提案する。
学習したコストは、非推奨の行動を避けるために使用され、結果として安全を優先する方針が導かれる。
提案手法は,報酬性能を低下させることなく,コスト制約を満たす安全なポリシを学習し,その結果,いくつかのベースラインを上回り得ることを実証的に実証する。
関連論文リスト
- Learning to maintain safety through expert demonstrations in settings with unknown constraints: A Q-learning perspective [1.104960878651584]
我々は、保守的であることと高い回帰軌道の可能性を著しく増大させることのバランスを表わす軌道の可能性を最大化する政策を見出した。
我々は、タスク固有の報酬だけでなく、州の安全性の評価にも依存する$Q$の値で、個々の状態-行動ペアの「約束」を定式化する。
これは、制約の下での逆学習問題に対する安全なQ-ラーニングの視点を必要とする。
論文 参考訳(メタデータ) (2026-02-27T08:55:29Z) - OSIL: Learning Offline Safe Imitation Policies with Safety Inferred from Non-preferred Trajectories [5.52395321369933]
本研究は,オフライン安全な模倣学習(IL)の問題に対処する。
目標は、時間ごとの安全コストや報奨情報を持たないデモから、安全で報酬を最大化するポリシーを学ぶことである。
非推奨のデモンストレーションから安全性を推論する新しいオフライン安全なILアルゴリズムOSILを提案する。
論文 参考訳(メタデータ) (2026-02-11T16:41:16Z) - Offline Safe Policy Optimization From Heterogeneous Feedback [35.454656807434006]
報酬の観点からエージェントの行動に関する一対の嗜好に基づいてポリシーを学習するフレームワークと、軌道セグメントの安全性を示すバイナリラベルを導入する。
提案手法は,高い報酬で安全な政策を学習し,最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-12-23T09:07:53Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - Offline Safe Reinforcement Learning Using Trajectory Classification [21.956407710821416]
我々は、望ましい軌跡を生成し、望ましくない軌跡を避ける政策を学ぶ。
オフライン安全なRLのためのDSRLベンチマークを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-12-19T22:29:03Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Evaluation of Safety Constraints in Autonomous Navigation with Deep
Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。
安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。
安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文 参考訳(メタデータ) (2023-07-27T01:04:57Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。