論文の概要: Towards Inference-time Category-wise Safety Steering for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.01174v1
- Date: Wed, 2 Oct 2024 02:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 22:50:44.181417
- Title: Towards Inference-time Category-wise Safety Steering for Large Language Models
- Title(参考訳): 大規模言語モデルのための推論時カテゴリー的安全ステアリングに向けて
- Authors: Amrita Bhattacharjee, Shaona Ghosh, Traian Rebedea, Christopher Parisien,
- Abstract要約: 大規模言語モデル(LLM)は、様々なユースケースで機能や応用が前例のない進歩を遂げている。
LLMの脆弱な性質は、トレーニングなしの推論時間法による追加の安全ステアリングステップを保証している。
本稿では,近年の推論時安全ステアリング作業と異なり,カテゴリー別ステアリングベクトルを用いたLCM出力の安全ステアリングについて検討する。
- 参考スコア(独自算出の注目度): 3.712541089289745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While large language models (LLMs) have seen unprecedented advancements in capabilities and applications across a variety of use-cases, safety alignment of these models is still an area of active research. The fragile nature of LLMs, even models that have undergone extensive alignment and safety training regimes, warrants additional safety steering steps via training-free, inference-time methods. While recent work in the area of mechanistic interpretability has investigated how activations in latent representation spaces may encode concepts, and thereafter performed representation engineering to induce such concepts in LLM outputs, the applicability of such for safety is relatively under-explored. Unlike recent inference-time safety steering works, in this paper we explore safety steering of LLM outputs using: (i) category-specific steering vectors, thereby enabling fine-grained control over the steering, and (ii) sophisticated methods for extracting informative steering vectors for more effective safety steering while retaining quality of the generated text. We demonstrate our exploration on multiple LLMs and datasets, and showcase the effectiveness of the proposed steering method, along with a discussion on the implications and best practices.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々なユースケースにおける能力や応用に先例のない進歩を遂げてきたが、これらのモデルの安全性の整合性はまだ研究の活発な領域である。
LLMの脆弱な性質は、広範囲なアライメントと安全訓練体制を経たモデルでさえ、トレーニングなしの推論時間法による追加の安全ステアリングステップを保証している。
近年の機械的解釈可能性の分野における研究は、潜在表現空間における活性化が概念をエンコードする方法を研究し、その後、LLM出力でそのような概念を誘導するために表現工学が実施されているが、そのような安全性に対する適用性は比較的過小評価されている。
近年の推論時安全ステアリングとは違って,本論文ではLLM出力の安全ステアリングについて述べる。
一 カテゴリー別ステアリングベクトルであって、ステアリングのきめ細かい制御を可能にすること。
二 生成したテキストの品質を維持しつつ、より効果的な安全操舵のための情報操舵ベクターの抽出方法。
我々は,複数のLCMとデータセットの探索を実演し,提案手法の有効性を実証するとともに,その意義とベストプラクティスについて議論した。
関連論文リスト
- Almost Surely Safe Alignment of Large Language Models at Inference-Time [20.5164976103514]
高い能力を持つ大規模言語モデル(LLM)でさえ、バイアスや安全でない応答を発生させることができる。
本稿では,新しい推論時間アライメント手法を提案する。
我々は、マルコフ決定プロセスとして安全な推論時間応答をフレーミングすることでこれを達成している。
論文 参考訳(メタデータ) (2025-02-03T09:59:32Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - Active Learning for Robust and Representative LLM Generation in Safety-Critical Scenarios [32.16984263644299]
大きな言語モデル(LLM)は、安全対策のための貴重なデータを生成することができるが、しばしば分布バイアスを示す。
LLM生成を導くために,アクティブラーニングとクラスタリングを統合した新しいフレームワークを提案する。
この結果から,提案フレームワークは,基礎となるデータ分布の事前知識を必要とせずに,より代表的な安全シナリオを生成できることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T21:48:14Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。