論文の概要: OSIL: Learning Offline Safe Imitation Policies with Safety Inferred from Non-preferred Trajectories
- arxiv url: http://arxiv.org/abs/2602.11018v1
- Date: Wed, 11 Feb 2026 16:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.198717
- Title: OSIL: Learning Offline Safe Imitation Policies with Safety Inferred from Non-preferred Trajectories
- Title(参考訳): OSIL:非推奨軌道からの安全性を考慮したオフライン型安全模擬政策の学習
- Authors: Returaj Burnwal, Nirav Pravinbhai Bhatt, Balaraman Ravindran,
- Abstract要約: 本研究は,オフライン安全な模倣学習(IL)の問題に対処する。
目標は、時間ごとの安全コストや報奨情報を持たないデモから、安全で報酬を最大化するポリシーを学ぶことである。
非推奨のデモンストレーションから安全性を推論する新しいオフライン安全なILアルゴリズムOSILを提案する。
- 参考スコア(独自算出の注目度): 5.52395321369933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses the problem of offline safe imitation learning (IL), where the goal is to learn safe and reward-maximizing policies from demonstrations that do not have per-timestep safety cost or reward information. In many real-world domains, online learning in the environment can be risky, and specifying accurate safety costs can be difficult. However, it is often feasible to collect trajectories that reflect undesirable or unsafe behavior, implicitly conveying what the agent should avoid. We refer to these as non-preferred trajectories. We propose a novel offline safe IL algorithm, OSIL, that infers safety from non-preferred demonstrations. We formulate safe policy learning as a Constrained Markov Decision Process (CMDP). Instead of relying on explicit safety cost and reward annotations, OSIL reformulates the CMDP problem by deriving a lower bound on reward maximizing objective and learning a cost model that estimates the likelihood of non-preferred behavior. Our approach allows agents to learn safe and reward-maximizing behavior entirely from offline demonstrations. We empirically demonstrate that our approach can learn safer policies that satisfy cost constraints without degrading the reward performance, thus outperforming several baselines.
- Abstract(参考訳): 本研究は,1段階当たりの安全コストや報奨情報を持たないデモンストレーションから,安全性と報酬を最大化するポリシを学習することを目的とする,オフラインの安全な模倣学習(IL)の問題に対処する。
多くの現実世界のドメインでは、環境におけるオンライン学習はリスクが高く、正確な安全コストを特定することは困難である。
しかし、しばしば、望ましくない行動や安全でない行動を反映し、エージェントが避けるべきことを暗黙に伝達する軌跡を収集することが可能である。
我々はこれらを非推奨軌跡と呼ぶ。
我々は,非推奨のデモンストレーションから安全性を推論する新しいオフライン安全なILアルゴリズム,OSILを提案する。
我々は、制約付きマルコフ決定プロセス(CMDP)として安全な政策学習を定式化する。
OSILは、明確な安全性のコストと報酬のアノテーションに頼る代わりに、報酬の最大化目標の上限を低くし、非推奨行動の可能性を推定するコストモデルを学ぶことによってCMDP問題を再構築する。
当社のアプローチでは,オフラインでのデモンストレーションから,安全かつ報酬を最大化する行動を学ぶことができる。
提案手法は,報酬性能を低下させることなく,コスト制約を満たす安全な政策を学習できることを実証的に示す。
関連論文リスト
- Offline Safe Policy Optimization From Heterogeneous Feedback [35.454656807434006]
報酬の観点からエージェントの行動に関する一対の嗜好に基づいてポリシーを学習するフレームワークと、軌道セグメントの安全性を示すバイナリラベルを導入する。
提案手法は,高い報酬で安全な政策を学習し,最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-12-23T09:07:53Z) - SafeMIL: Learning Offline Safe Imitation Policy from Non-Preferred Trajectories [5.52395321369933]
オフライン型安全な模倣学習(IL)の課題について検討する。
本稿では,状態-作用対が危険であるかどうかを予測するパラメータ化コストを学習するための新しい手法であるSafeMILを提案する。
学習したコストは、非推奨の行動を避けるために使用され、結果として安全を優先する方針が導かれる。
論文 参考訳(メタデータ) (2025-11-11T11:44:20Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Guided Online Distillation: Promoting Safe Reinforcement Learning by
Offline Demonstration [75.51109230296568]
オフラインデータから専門家ポリシーを抽出してオンライン探索をガイドすることは、保存性の問題を軽減するための有望な解決策である、と我々は主張する。
オフラインからオンラインまでの安全なRLフレームワークであるGOLD(Guid Online Distillation)を提案する。
GOLDは、オフラインDTポリシーをオンラインセーフなRLトレーニングを通じて軽量なポリシーネットワークに蒸留し、オフラインDTポリシーとオンラインセーフなRLアルゴリズムの両方を上回っている。
論文 参考訳(メタデータ) (2023-09-18T00:22:59Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Safe Reinforcement Learning via Projection on a Safe Set: How to Achieve
Optimality? [0.0]
強化学習(Reinforcement Learning, RL)は、学習方針の閉ループ動作に関する正式な保証の提供に苦慮している。
近年のコントリビューションでは、学習方針による入力のプロジェクションを安全なセットにするという提案がなされている。
本稿は、Q$-learningおよびポリシーグラデーション手法の文脈でこの問題に対処する。
論文 参考訳(メタデータ) (2020-04-02T10:11:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。