論文の概要: Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness
- arxiv url: http://arxiv.org/abs/2412.00074v1
- Date: Tue, 26 Nov 2024 06:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:17:56.105843
- Title: Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness
- Title(参考訳): セーフ・トゥ・サーブ:安全とヘルパーネスのためのインストラクション付きモデルの調整
- Authors: Avinash Amballa, Durga Sandeep Saluru, Gayathri Akkinapalli, Abhishek Sureddy, Akshay Kumar Sureddy,
- Abstract要約: 大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities in complex reasoning and text generation. However, these models can inadvertently generate unsafe or biased responses when prompted with problematic inputs, raising significant ethical and practical concerns for real-world deployment. This research addresses the critical challenge of developing language models that generate both helpful and harmless content, navigating the delicate balance between model performance and safety. We demonstrate that incorporating safety-related instructions during the instruction-tuning of pre-trained models significantly reduces toxic responses to unsafe prompts without compromising performance on helpfulness datasets. We found Direct Preference Optimization (DPO) to be particularly effective, outperforming both SIT and RAFT by leveraging both chosen and rejected responses for learning. Our approach increased safe responses from 40$\%$ to over 90$\%$ across various harmfulness benchmarks. In addition, we discuss a rigorous evaluation framework encompassing specialized metrics and diverse datasets for safety and helpfulness tasks ensuring a comprehensive assessment of the model's capabilities.
- Abstract(参考訳): 大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
しかし、これらのモデルは問題のあるインプットによって不安全または偏りの応答を不注意に生成し、現実世界の展開に対して重大な倫理的および実践的な懸念を提起する。
本研究は,有用かつ無害なコンテンツを生成する言語モデルを開発する上で,モデル性能と安全性の微妙なバランスをナビゲートする上で重要な課題である。
トレーニング済みモデルの指導訓練中に安全関連命令を組み込むことで、有用性データセットの性能を損なうことなく、安全でないプロンプトに対する有害な応答を著しく低減できることを実証する。
直接選好最適化(DPO)は,選択された応答と拒否された応答の両方を学習に活用することにより,SITとRAFTの双方を上回り,特に有効であることがわかった。
提案手法は, 各種有害度ベンチマークにおいて, 40$\%$ から 90$\%$ 以上への安全な応答を増大させた。
さらに,モデルの性能を包括的に評価する上で,安全性と有用なタスクのために,専門的なメトリクスと多様なデータセットを含む厳密な評価フレームワークについても論じる。
関連論文リスト
- Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Safety at Scale: A Comprehensive Survey of Large Model Safety [299.801463557549]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Refining Input Guardrails: Enhancing LLM-as-a-Judge Efficiency Through Chain-of-Thought Fine-Tuning and Alignment [2.9775785740619254]
大きな言語モデル(LLM)は、会話型AI製品など、さまざまなアプリケーションで価値のある機能を示す。
悪意のあるユーザインタラクションに対する脆弱性を軽減することで、これらの製品のセキュリティと信頼性を確保することが最重要である。
入力モデレーションガードレールとして機能する異なるLDMの微調整およびCoT応答の調整の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-22T18:40:57Z) - Enhancing AI Safety Through the Fusion of Low Rank Adapters [7.384556630042846]
低ランク適応核融合は、悪意のあるプロンプトに直面した場合に有害な応答を緩和する。
タスクアダプタと安全アダプタとのLoRA融合を利用して, 有害度率を42%低減した。
また、モデルが安全でないものに近い安全なプロンプトを拒否する、誇張された安全行動も観察する。
論文 参考訳(メタデータ) (2024-12-30T13:12:27Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Safety-Aware Fine-Tuning of Large Language Models [29.5636201427693]
細調整された大規模言語モデル(LLM)は、個々のニーズや好みに合わせてモデルを調整するための一般的なプラクティスとして現れています。
本稿では,有害な可能性のあるデータを自動検出・除去する,新たなSAFT(Safety-Aware Fine-Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-13T21:24:25Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Safety Arithmetic: A Framework for Test-time Safety Alignment of Language Models by Steering Parameters and Activations [19.132597762214722]
現在のアライメント手法は、動的なユーザ意図と複雑な目的に苦しむ。
異なるシナリオにおける安全性を向上させるトレーニングフリーフレームワークであるSafety Arithmeticを提案する。
実験の結果,安全算術は安全対策を大幅に改善し,過度な安全性を低減し,モデルの有用性を維持できることがわかった。
論文 参考訳(メタデータ) (2024-06-17T17:48:13Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。