論文の概要: Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects
- arxiv url: http://arxiv.org/abs/2304.03081v1
- Date: Thu, 6 Apr 2023 14:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:10:30.632960
- Title: Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects
- Title(参考訳): 好ましくない軌道の時間パターン学習と負の副作用回避による安全なMDP計画
- Authors: Siow Meng Low, Akshat Kumar, Scott Sanner
- Abstract要約: 安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
- 参考スコア(独自算出の注目度): 27.41101006357176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In safe MDP planning, a cost function based on the current state and action
is often used to specify safety aspects. In the real world, often the state
representation used may lack sufficient fidelity to specify such safety
constraints. Operating based on an incomplete model can often produce
unintended negative side effects (NSEs). To address these challenges, first, we
associate safety signals with state-action trajectories (rather than just an
immediate state-action). This makes our safety model highly general. We also
assume categorical safety labels are given for different trajectories, rather
than a numerical cost function, which is harder to specify by the problem
designer. We then employ a supervised learning model to learn such
non-Markovian safety patterns. Second, we develop a Lagrange multiplier method,
which incorporates the safety model and the underlying MDP model in a single
computation graph to facilitate agent learning of safe behaviors. Finally, our
empirical results on a variety of discrete and continuous domains show that
this approach can satisfy complex non-Markovian safety constraints while
optimizing an agent's total returns, is highly scalable, and is also better
than the previous best approach for Markovian NSEs.
- Abstract(参考訳): 安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
現実の世界では、しばしば使用される状態表現はそのような安全制約を特定するのに十分な忠実さを欠いている。
不完全モデルに基づく操作はしばしば意図しない負の副作用(NSE)を生じる。
これらの課題に対処するために、まず、安全信号と状態行動軌跡(即時状態行動ではなく)を関連付ける。
これにより、安全モデルは極めて一般的なものになる。
また,問題設計者の特定が困難である数値的コスト関数よりも,異なる軌道に対してカテゴリ安全ラベルが与えられると仮定する。
そして,このような非マルコフ的安全パターンを学習するために教師付き学習モデルを用いる。
第2に,安全な行動のエージェント学習を容易にするために,単一の計算グラフに安全モデルと基礎となるmdpモデルを組み込んだラグランジュ乗算法を開発した。
最後に、様々な離散的かつ連続的な領域に関する実験結果から、このアプローチは、エージェントの総リターンを最適化しながら、複雑な非マルコフ的安全制約を満たすことができ、高度にスケーラブルであり、マルコフ的NSEに対する以前のベストアプローチよりも優れていることを示す。
関連論文リスト
- SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models [63.63254955809224]
本稿では,難しい例と簡単な例を区別するバイナリルータを提案する。
提案手法は、ルータが考慮するデータに対して、より大きな安全ガードモデルを選択的に適用し、精度を維持しながら効率を向上する。
複数のベンチマークデータセットによる実験結果から,適応モデルの選択により,計算コストと安全性性能のトレードオフが著しく向上することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:51:17Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。
タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。
また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文 参考訳(メタデータ) (2024-12-30T13:12:27Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Navigating the Safety Landscape: Measuring Risks in Finetuning Large Language Models [65.06446825020578]
大規模言語モデル(LLM)が人間の嗜好に合わせて行動し、推論中に有害な行動を防ぐためには、安全性の調整が不可欠である。
我々は, LLMの安全景観をナビゲートすることで, LLMの微調整のリスクを測定することを目的としている。
論文 参考訳(メタデータ) (2024-05-27T17:31:56Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Fail-Safe Adversarial Generative Imitation Learning [9.594432031144716]
本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-03T13:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。