論文の概要: A Data-Centric Approach for Safe and Secure Large Language Models against Threatening and Toxic Content
- arxiv url: http://arxiv.org/abs/2504.16120v1
- Date: Sat, 19 Apr 2025 04:57:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.843394
- Title: A Data-Centric Approach for Safe and Secure Large Language Models against Threatening and Toxic Content
- Title(参考訳): 脅威・有害コンテンツに対する安全・安全大言語モデルのためのデータ中心的アプローチ
- Authors: Chaima Njeh, Haïfa Nakouri, Fehmi Jaafar,
- Abstract要約: 大きな言語モデル(LLM)は目覚ましい進歩を遂げているが、潜在的なバイアスや有害なコンテンツに対する懸念は続いている。
LLMの安全性と倫理的利用を保証するための実用的なソリューションを導入する。
本稿では,BART-Corrective Model(BART-Corrective Model,BART-Corrective Model,BART-Corrective Model,BART-Corrective Model,BART-Corrective Model,BART-Corrective Model)について述べる。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLM) have made remarkable progress, but concerns about potential biases and harmful content persist. To address these apprehensions, we introduce a practical solution for ensuring LLM's safe and ethical use. Our novel approach focuses on a post-generation correction mechanism, the BART-Corrective Model, which adjusts generated content to ensure safety and security. Unlike relying solely on model fine-tuning or prompt engineering, our method provides a robust data-centric alternative for mitigating harmful content. We demonstrate the effectiveness of our approach through experiments on multiple toxic datasets, which show a significant reduction in mean toxicity and jail-breaking scores after integration. Specifically, our results show a reduction of 15% and 21% in mean toxicity and jail-breaking scores with GPT-4, a substantial reduction of 28% and 5% with PaLM2, a reduction of approximately 26% and 23% with Mistral-7B, and a reduction of 11.1% and 19% with Gemma-2b-it. These results demonstrate the potential of our approach to improve the safety and security of LLM, making them more suitable for real-world applications.
- Abstract(参考訳): 大きな言語モデル(LLM)は目覚ましい進歩を遂げているが、潜在的なバイアスや有害なコンテンツに対する懸念は続いている。
これらの問題に対処するため,LLMの安全・倫理的利用を確保するための実践的ソリューションを提案する。
本稿では,BART-Corrective Model(BART-Corrective Model,BART-Corrective Model,BART-Corrective Model,BART-Corrective Model,BART-Corrective Model,BART-Corrective Model)について述べる。
モデルファインチューニングやプロンプトエンジニアリングにのみ依存するのではなく、我々の手法は有害なコンテンツを緩和するための堅牢なデータ中心の代替手段を提供する。
複数の有毒なデータセットを用いた実験により, 本手法の有効性を実証し, 統合後の平均有毒度および脱獄スコアを著しく低下させることを示した。
具体的には, GPT-4による平均毒性および脱獄スコアの15%と21%, PaLM2による28%と5%, Mistral-7Bによる26%と23%, Gemma-2b-itによる11.1%と19%の減少を示した。
これらの結果は、LLMの安全性と安全性を向上させるアプローチの可能性を示し、現実のアプリケーションにもっと適している。
関連論文リスト
- Making Every Step Effective: Jailbreaking Large Vision-Language Models Through Hierarchical KV Equalization [74.78433600288776]
HKVE (Hierarchical Key-Value Equalization) は、勾配最適化結果を選択的に受け入れる革新的なジェイルブレイクフレームワークである。
HKVEは既存の手法を20.43%,21.01%,26.43%のマージンで大幅に上回った。
論文 参考訳(メタデータ) (2025-03-14T17:57:42Z) - Zero-Shot Defense Against Toxic Images via Inherent Multimodal Alignment in LVLMs [10.463762448166714]
LVLM固有のマルチモーダルアライメントを利用してゼロショット有毒画像検出を行う軽量なSafeCLIPを提案する。
実験の結果、SafeCLIPの防衛成功率は66.9%で、偽陽性率は3.2%、オーバーヘッドは7.2%であった。
我々の研究は、本質的なマルチモーダルアライメントを活用することで、効率よく低コストなLVLM安全性が得られることを示した。
論文 参考訳(メタデータ) (2025-02-25T06:51:16Z) - Refining Positive and Toxic Samples for Dual Safety Self-Alignment of LLMs with Minimal Human Interventions [17.485655062129965]
近年のAIエージェントは、大規模言語モデル(LLM)の出力を人間の意図で調整するために、命令チューニングと強化学習に依存している。
PT-ALIGN(PT-ALIGN)は,ヒトの健康管理を最小化するための安全自己調整手法である。
PT-ALIGNの安全性向上に有効であると同時に,有用性と有用性の両面を両立させながら,9つのオープンソース LLM 実験を行った。
論文 参考訳(メタデータ) (2025-02-08T09:54:47Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - The Dual-use Dilemma in LLMs: Do Empowering Ethical Capacities Make a Degraded Utility? [54.18519360412294]
大きな言語モデル(LLM)は、安全のための有害な要求を拒否することと、ユーティリティのための正当な要求を収容することのバランスをとる必要がある。
本稿では,DPO(Direct Preference Optimization)に基づくアライメントフレームワークを提案する。
我々は,DeepSeek-R1をベンチマークでテストした結果を解析し,この高い評価を得たモデルがもたらす批判的倫理的懸念を明らかにする。
論文 参考訳(メタデータ) (2025-01-20T06:35:01Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Diversity Helps Jailbreak Large Language Models [18.526179926795834]
私たちは、大きな言語モデルが以前のコンテキストから逸脱する能力を活用する強力なjailbreakテクニックを発見しました。
提案手法は既存のアプローチを劇的に上回り,最大62.83%の成功率でトップ10のチャットボットを妥協することに成功した。
この啓示は、現在のLLM安全性トレーニングにおいて重大な欠陥を露呈しており、既存の手法は脆弱性を取り除くのではなく、単に脆弱性を隠蔽するものであることを示唆している。
論文 参考訳(メタデータ) (2024-11-06T19:39:48Z) - POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization [36.27759448564185]
近年,大規模言語モデルにおける安全性と有用性のバランスが重要な課題となっている。
本稿では,優れた教師モデルの完成度を生かして,過度な拒絶を減らすための選好最適化手法を提案する。
汎用プロンプトの過剰生成は安全性と有用性のバランスを著しく改善することを示す。
論文 参考訳(メタデータ) (2024-10-16T19:56:22Z) - Safety-Aware Fine-Tuning of Large Language Models [29.5636201427693]
細調整された大規模言語モデル(LLM)は、個々のニーズや好みに合わせてモデルを調整するための一般的なプラクティスとして現れています。
本稿では,有害な可能性のあるデータを自動検出・除去する,新たなSAFT(Safety-Aware Fine-Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-13T21:24:25Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。