Fugu-MT 論文翻訳(概要): TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback

論文の概要: TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback

arxiv url: http://arxiv.org/abs/2504.12557v1
Date: Thu, 17 Apr 2025 01:11:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 23:37:35.701117
Title: TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback
Title（参考訳）: TraCeS:スパークセーフティフィードバックによるトラジェクティブベースのクレジットアサインメント
Authors: Siow Meng Low, Akshat Kumar,
Abstract要約: 安全強化学習(RL)では、エージェントを安全な意思決定に合わせるために補助的な安全コストが使用される。実際には、コスト関数や予算を含む安全性の制約は、不明または特定が難しい。我々は、真の安全定義が不明な一般的な設定に対処し、少ないラベル付きデータから学ぶ必要がある。
参考スコア（独自算出の注目度）: 15.904640266226023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In safe reinforcement learning (RL), auxiliary safety costs are used to align the agent to safe decision making. In practice, safety constraints, including cost functions and budgets, are unknown or hard to specify, as it requires anticipation of all possible unsafe behaviors. We therefore address a general setting where the true safety definition is unknown, and has to be learned from sparsely labeled data. Our key contributions are: first, we design a safety model that performs credit assignment to estimate each decision step's impact on the overall safety using a dataset of diverse trajectories and their corresponding binary safety labels (i.e., whether the corresponding trajectory is safe/unsafe). Second, we illustrate the architecture of our safety model to demonstrate its ability to learn a separate safety score for each timestep. Third, we reformulate the safe RL problem using the proposed safety model and derive an effective algorithm to optimize a safe yet rewarding policy. Finally, our empirical results corroborate our findings and show that this approach is effective in satisfying unknown safety definition, and scalable to various continuous control tasks.
Abstract（参考訳）: 安全強化学習(RL)では、エージェントを安全な意思決定に合わせるために補助的な安全コストが使用される。実際には、コスト関数や予算を含む安全性の制約は、すべての安全でない行動の予測を必要とするため、不明または特定が難しい。したがって、真の安全性定義が不明な一般的な設定に対処し、少ないラベル付きデータから学ぶ必要がある。まず、さまざまなトラジェクトリと対応するバイナリ安全ラベルのデータセット(すなわち、対応するトラジェクトリが安全/安全でないかどうか)を使用して、各決定ステップが全体の安全性に与える影響を推定するための信用割当を行う安全モデルを構築します。第2に、安全モデルのアーキテクチャを説明し、各タイムステップ毎に個別の安全スコアを学習する能力を示す。第三に、提案した安全モデルを用いて安全なRL問題を再構成し、安全かつ報奨的なポリシーを最適化するための効果的なアルゴリズムを導出する。最後に,本手法が未知の安全性定義を満たすのに有効であり,各種連続制御タスクにスケーラブルであることを示す。

関連論文リスト

Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。 UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文参考訳（メタデータ） (2025-03-14T17:00:22Z)
Probabilistic Shielding for Safe Reinforcement Learning [51.35559820893218]
現実のシナリオでは、強化学習(RL)エージェントはトレーニング時間を含む安全な振る舞いをしなければならない。我々は,Safe RLの厳密な保証を享受する,スケーラブルな新しい手法を提案する。当社のアプローチは、トレーニングやテスト時にエージェントが安全であることを保証する厳格な公式な安全保証を提供する。
論文参考訳（メタデータ） (2025-03-09T17:54:33Z)
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文参考訳（メタデータ） (2025-02-04T09:31:54Z)
What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。これを用いて,3つのよく知られた安全微調整手法について検討する。
論文参考訳（メタデータ） (2024-07-14T16:12:57Z)
Safety through Permissibility: Shield Construction for Fast and Safe Reinforcement Learning [57.84059344739159]
シールドディング」は、強化学習(RL)の安全性を強制する一般的な手法である安全と遮蔽構造に対処する新しい許容性に基づく枠組みを提案する。
論文参考訳（メタデータ） (2024-05-29T18:00:21Z)
Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文参考訳（メタデータ） (2024-05-05T17:27:22Z)
Global Safe Sequential Learning via Efficient Knowledge Transfer [21.817220232038157]
本稿では,タスク学習を高速化し,探索可能な安全な領域を拡張するために,安全な転送シーケンシャル学習を提案する。関連するソースタスクからの大量のオフラインデータを活用することで、我々のアプローチはターゲットタスクの探索をより効果的にガイドする。実験により,この手法は最先端の手法と比較して,データ消費の少ないタスクを学習することを示した。
論文参考訳（メタデータ） (2024-02-22T09:43:25Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文参考訳（メタデータ） (2022-08-23T05:02:09Z)
Fail-Safe Adversarial Generative Imitation Learning [9.594432031144716]
本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
論文参考訳（メタデータ） (2022-03-03T13:03:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。