論文の概要: Semantic loss guided data efficient supervised fine tuning for Safe Responses in LLMs
- arxiv url: http://arxiv.org/abs/2412.06843v1
- Date: Sat, 07 Dec 2024 16:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-11 14:39:22.611227
- Title: Semantic loss guided data efficient supervised fine tuning for Safe Responses in LLMs
- Title(参考訳): LLMの安全応答のためのセマンティック・ロスガイドデータを用いた教師付き微調整
- Authors: Yuxiao Lu, Arunesh Sinha, Pradeep Varakantham,
- Abstract要約: 有害なプロンプトに対する安全でない応答を生成する大規模言語モデル(LLM)は、彼らのアプリケーションにおいて重要な問題である。
本稿では,この問題を克服し,高品質な人的データを必要とする限界を克服することを目的とする。
負のEarth Mover Distance(EMD)損失と組み合わせたセマンティックコストを用いることで、LLMが安全でない応答を発生させないよう誘導する。
- 参考スコア(独自算出の注目度): 18.044879441434432
- License:
- Abstract: Large Language Models (LLMs) generating unsafe responses to toxic prompts is a significant issue in their applications. While various efforts aim to address this safety concern, previous approaches often demand substantial human data collection or rely on the less dependable option of using another LLM to generate corrective data. In this paper, we aim to take this problem and overcome limitations of requiring significant high-quality human data. Our method requires only a small set of unsafe responses to toxic prompts, easily obtained from the unsafe LLM itself. By employing a semantic cost combined with a negative Earth Mover Distance (EMD) loss, we guide the LLM away from generating unsafe responses. Additionally, we propose a novel lower bound for EMD loss, enabling more efficient optimization. Our results demonstrate superior performance and data efficiency compared to baselines, and we further examine the nuanced effects of over-alignment and potential degradation of language capabilities when using contrastive data.
- Abstract(参考訳): 有害なプロンプトに対する安全でない応答を生成する大規模言語モデル(LLM)は、彼らのアプリケーションにおいて重要な問題である。
この安全性の懸念に対処するために様々な取り組みが行われているが、従来のアプローチでは、大量の人的データ収集を必要としたり、他のLSMを使用して修正データを生成するという、信頼性の低い選択肢に依存している場合が多い。
本稿では,この問題を克服し,高品質な人的データを必要とする限界を克服することを目的とする。
本手法では, 安全でないLSM自体から容易に得ることのできる, 有害なプロンプトに対する少数の不安全応答しか必要としない。
負のEarth Mover Distance(EMD)損失と組み合わせたセマンティックコストを用いることで、LLMが安全でない応答を発生させないよう誘導する。
さらに,より効率的な最適化を実現するため,新たなEMD損失抑制法を提案する。
本研究は,ベースラインに比べて性能とデータ効率が優れており,コントラストデータを用いた場合の言語能力の過度な調整と潜在的な劣化の影響について検討する。
関連論文リスト
- Refining Positive and Toxic Samples for Dual Safety Self-Alignment of LLMs with Minimal Human Interventions [17.485655062129965]
近年のAIエージェントは、大規模言語モデル(LLM)の出力を人間の意図で調整するために、命令チューニングと強化学習に依存している。
PT-ALIGN(PT-ALIGN)は,ヒトの健康管理を最小化するための安全自己調整手法である。
PT-ALIGNの安全性向上に有効であると同時に,有用性と有用性の両面を両立させながら,9つのオープンソース LLM 実験を行った。
論文 参考訳(メタデータ) (2025-02-08T09:54:47Z) - Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。
近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。
コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T22:06:29Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。
本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。
私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-10-02T13:12:13Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - Robustifying Safety-Aligned Large Language Models through Clean Data Curation [11.273749179260468]
大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:50:38Z) - Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。
既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。