論文の概要: Explainably Safe Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.04634v1
- Date: Wed, 03 Jun 2026 09:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.649409
- Title: Explainably Safe Reinforcement Learning
- Title(参考訳): 明白に安全な強化学習
- Authors: Sabine Rieder, Stefan Pranger, Debraj Chakraborty, Jan Křetínský, Bettina Könighofer,
- Abstract要約: 本稿では,シールドの決定を人為的に解釈可能な説明を提供することで信頼性を高める,安全安全RLの新たなアプローチを提案する。
当社の手法は,シグナリングポリシを意思決定ツリーの階層構造として表現し,トップダウンのケースベースの説明を提供する。
- 参考スコア(独自算出の注目度): 3.5232085374661284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Trust in a decision-making system requires both safety guarantees and the ability to interpret and understand its behavior. This is particularly important for learned systems, whose decision-making processes are often highly opaque. Shielding is a prominent model-based technique for enforcing safety in reinforcement learning. However, because shields are automatically synthesized using rigorous formal methods, their decisions are often similarly difficult for humans to interpret. Recently, decision trees became customary to represent controllers and policies. However, since shields are inherently non-deterministic, their decision tree representations become too large to be explainable in practice. To address this challenge, we propose a novel approach for explainable safe RL that enhances trust by providing human-interpretable explanations of the shield's decisions. Our method represents the shielding policy as a hierarchy of decision trees, offering top-down, case-based explanations. At design time, we use a world model to analyze the safety risks of executing actions in given states. Based on this analysis, we construct both the shield and a high-level decision tree that classifies states into risk categories (safe, critical, dangerous, unsafe), explaining why a situation may be safety-critical. At runtime, we generate localized decision trees that explain which actions are allowed and why others are deemed unsafe. Our method facilitates explainability of the safety aspect in safe-by-shielding reinforcement learning, requires no additional information beyond what is already used for shielding, incurs minimal overhead, and integrates readily into existing shielded RL pipelines. In our experiments, we compute explanations using decision trees that are several orders of magnitude smaller than the original shield.
- Abstract(参考訳): 意思決定システムにおける信頼は、安全保証と、その振る舞いを解釈し理解する能力の両方を必要とする。
これは、意思決定プロセスが非常に不透明な学習システムにとって特に重要である。
シールドは強化学習における安全性を高めるための顕著なモデルベース技術である。
しかし、シールドは厳密な形式的手法で自動的に合成されるため、その決定はしばしば人間が解釈することが困難である。
近年では、意思決定木は、コントローラやポリシーを表すのが慣例となっている。
しかし、シールドは本質的に非決定論的であるため、その決定木表現があまりに大きくなり、実際は説明できない。
この課題に対処するために,シールドの決定を人為的に解釈可能な説明を提供することで信頼性を高める,安全安全RLの新たなアプローチを提案する。
当社の手法は,シグナリングポリシを意思決定ツリーの階層構造として表現し,トップダウンのケースベースの説明を提供する。
設計時には、ある状態における行動の実行の安全性リスクを分析するために、世界モデルを使用します。
この分析に基づいて、国家を危険カテゴリー(安全、危険、危険、安全)に分類するシールドと高レベルの決定ツリーを構築し、状況がなぜ安全クリティカルであるかを説明する。
実行時に、どのアクションが許可されているか、他のアクションが安全でないと判断される理由を説明する、局所的な決定木を生成します。
本手法は,安全・遮蔽強化学習における安全面の説明を容易にするとともに,遮蔽に使われているもの以外の情報を必要としないこと,オーバーヘッドを最小限に抑え,既存の遮蔽RLパイプラインに容易に統合する。
実験では,元のシールドよりも数桁小さい決定木を用いて説明を計算した。
関連論文リスト
- Internalizing Safety Understanding in Large Reasoning Models via Verification [33.2377930782685]
本稿では,安全確認タスクにのみ焦点をあてた LRM のトレーニングにより,安全性仕様を内部化するフレームワークを提案する。
検証の学習は、応答安全性の強力な一般化を誘導し、ドメイン外ジェイルブレイクに対する堅牢性を著しく向上させることを示した。
論文 参考訳(メタデータ) (2026-05-09T13:05:00Z) - Interval POMDP Shielding for Imperfect-Perception Agents [0.5729426778193399]
学習した知覚に依存する自律システムは、センサーの読み取りが誤って分類された場合、安全でない決定を下す可能性がある。
我々はシールドについて研究している: 提案されたアクションを考慮すれば、シールドは安全を侵害する可能性のあるアクションをブロックする。
実験により,我々の遮蔽アプローチは,最先端のベースラインよりもシステムの安全性を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-22T16:12:37Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。
我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。
当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文 参考訳(メタデータ) (2025-03-09T17:54:33Z) - Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [41.32331563680919]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。
解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。
合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文 参考訳(メタデータ) (2025-03-06T22:47:45Z) - Safety Reasoning with Guidelines [63.15719512614899]
RT(Refusal Training)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Online Shielding for Reinforcement Learning [59.86192283565134]
RLエージェントのオンライン安全保護のためのアプローチを提案する。
実行中、シールドは利用可能な各アクションの安全性を分析する。
この確率と与えられた閾値に基づいて、シールドはエージェントからのアクションをブロックするかを決定する。
論文 参考訳(メタデータ) (2022-12-04T16:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。