論文の概要: SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12274v1
- Date: Tue, 18 Jun 2024 05:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:45:27.808962
- Title: SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models
- Title(参考訳): SafeInfer: 大規模言語モデルのためのコンテキスト適応型デコーディング時間安全アライメント
- Authors: Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee, Rima Hazra,
- Abstract要約: 安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示す。
文脈適応型デコード型安全アライメント戦略であるSafeInferを提案する。
HarmEvalは、広範な安全性評価のための新しいベンチマークである。
- 参考スコア(独自算出の注目度): 5.6874111521946356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-aligned language models often exhibit fragile and imbalanced safety mechanisms, increasing the likelihood of generating unsafe content. In addition, incorporating new knowledge through editing techniques to language models can further compromise safety. To address these issues, we propose SafeInfer, a context-adaptive, decoding-time safety alignment strategy for generating safe responses to user queries. SafeInfer comprises two phases: the safety amplification phase, which employs safe demonstration examples to adjust the model's hidden states and increase the likelihood of safer outputs, and the safety-guided decoding phase, which influences token selection based on safety-optimized distributions, ensuring the generated content complies with ethical guidelines. Further, we present HarmEval, a novel benchmark for extensive safety evaluations, designed to address potential misuse scenarios in accordance with the policies of leading AI tech giants.
- Abstract(参考訳): 安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示し、安全でないコンテンツを生成する可能性を高める。
さらに、言語モデルに編集技術を通じて新たな知識を取り入れることで、安全性をさらに損なうことができる。
これらの問題に対処するため,ユーザクエリに対する安全な応答を生成するためのコンテキスト適応型デコード型安全アライメント戦略であるSafeInferを提案する。
SafeInferは、モデルが隠れた状態を調整し、より安全な出力の可能性を高めるために安全なデモ例を利用するセーフアンプリフィケーションフェーズと、安全最適化分布に基づくトークン選択に影響を与える安全誘導復号フェーズと、生成したコンテンツが倫理ガイドラインに準拠することを保証する。
さらに、主要なAI技術の巨人のポリシーに従って、潜在的な誤用シナリオに対処するために設計された、広範な安全性評価のための新しいベンチマークであるHarmEvalを紹介します。
関連論文リスト
- Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [49.60774626839712]
マルチモーダル生成モデルのトレーニングは、ユーザを有害で安全でない、議論の余地のない、あるいは文化的に不適切なアウトプットに晒すことができる。
安全コンテクストの埋め込みと、より安全な画像を生成するための二重再構成プロセスを活用するモジュール型動的ソリューションを提案する。
我々は、モデル安全性の制御可能なバリエーションを提供しながら、安全な画像生成ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Controllable Safety Alignment: Inference-Time Adaptation to Diverse Safety Requirements [46.79887158348167]
大規模言語モデル(LLM)の安全性アライメントに関する現在のパラダイムは、一大のアプローチに従っている。
我々は,モデルの再トレーニングを伴わず,多様な安全要件に適応するフレームワークとして,制御可能な安全アライメント(CoSA)を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:38:01Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders [5.070104802923903]
UnsafeプロンプトはLarge Language Models (LLM)に重大な脅威をもたらす
本稿では,安全でないプロンプトと区別する文エンコーダの可能性について検討する。
我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリパーティメトリックを導入します。
論文 参考訳(メタデータ) (2024-07-09T13:35:54Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。
異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。
実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T17:48:13Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。