Fugu-MT 論文翻訳(概要): SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories

論文の概要: SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories

arxiv url: http://arxiv.org/abs/2511.08136v1
Date: Wed, 12 Nov 2025 01:41:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-12 20:17:03.660666
Title: SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories
Title（参考訳）: SafeMIL:非推奨軌道からのオフライン安全な模倣政策の学習
Authors: Returaj Burnwal, Nirav Pravinbhai Bhatt, Balaraman Ravindran,
Abstract要約: オフライン型安全な模倣学習(IL)の課題について検討する。本稿では,状態-作用対が危険であるかどうかを予測するパラメータ化コストを学習するための新しい手法であるSafeMILを提案する。学習したコストは、非推奨の行動を避けるために使用され、結果として安全を優先する方針が導かれる。
参考スコア（独自算出の注目度）: 5.52395321369933
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we study the problem of offline safe imitation learning (IL). In many real-world settings, online interactions can be risky, and accurately specifying the reward and the safety cost information at each timestep can be difficult. However, it is often feasible to collect trajectories reflecting undesirable or risky behavior, implicitly conveying the behavior the agent should avoid. We refer to these trajectories as non-preferred trajectories. Unlike standard IL, which aims to mimic demonstrations, our agent must also learn to avoid risky behavior using non-preferred trajectories. In this paper, we propose a novel approach, SafeMIL, to learn a parameterized cost that predicts if the state-action pair is risky via \textit{Multiple Instance Learning}. The learned cost is then used to avoid non-preferred behaviors, resulting in a policy that prioritizes safety. We empirically demonstrate that our approach can learn a safer policy that satisfies cost constraints without degrading the reward performance, thereby outperforming several baselines.
Abstract（参考訳）: 本研究では,オフライン型安全な模倣学習(IL)の問題について検討する。多くの実世界の環境では、オンラインインタラクションはリスクが高く、各時点における報酬と安全コスト情報を正確に特定することは困難である。しかし、しばしば、望ましくない行動や危険な行動を反映し、エージェントが避けるべき振る舞いを暗黙的に伝達する軌跡を収集することは可能である。これらの軌跡を非優先軌跡と呼ぶ。実演を模倣することを目的とした標準ILとは異なり、エージェントは非推奨軌道を用いた危険行動の回避も学ばなければならない。本稿では,状態-動作ペアがリスクがあるかどうかを予測するパラメータ化コストを,‘textit{Multiple Instance Learning} を通じて学習するための新しいアプローチ SafeMIL を提案する。学習したコストは、非推奨の行動を避けるために使用され、結果として安全を優先する方針が導かれる。提案手法は,報酬性能を低下させることなく,コスト制約を満たす安全なポリシを学習し,その結果,いくつかのベースラインを上回り得ることを実証的に実証する。

関連論文リスト

Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。 UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文参考訳（メタデータ） (2025-03-14T17:00:22Z)
Offline Safe Reinforcement Learning Using Trajectory Classification [21.956407710821416]
我々は、望ましい軌跡を生成し、望ましくない軌跡を避ける政策を学ぶ。オフライン安全なRLのためのDSRLベンチマークを用いて,本手法を広範囲に評価した。
論文参考訳（メタデータ） (2024-12-19T22:29:03Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Evaluation of Safety Constraints in Autonomous Navigation with Deep Reinforcement Learning [62.997667081978825]
学習可能なナビゲーションポリシとして,セーフとアンセーフの2つを比較します。安全なポリシは、制約をアカウントに含めますが、もう一方はそうではありません。安全政策は、よりクリアランスの高い軌道を生成することができ(障害物によらず)、全体的な性能を犠牲にすることなく、トレーニング中に衝突を減らすことができることを示す。
論文参考訳（メタデータ） (2023-07-27T01:04:57Z)
Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文参考訳（メタデータ） (2022-12-14T03:11:25Z)
SAFER: Data-Efficient and Safe Reinforcement Learning via Skill Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文参考訳（メタデータ） (2022-02-10T05:43:41Z)
Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文参考訳（メタデータ） (2020-10-27T17:54:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。