論文の概要: TuneShield: Mitigating Toxicity in Conversational AI while Fine-tuning on Untrusted Data
- arxiv url: http://arxiv.org/abs/2507.05660v1
- Date: Tue, 08 Jul 2025 04:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.561487
- Title: TuneShield: Mitigating Toxicity in Conversational AI while Fine-tuning on Untrusted Data
- Title(参考訳): TuneShield:信頼できないデータを微調整しながら会話型AIにおける毒性の軽減
- Authors: Aravind Cheruvu, Shravya Kanchi, Sifat Muhammad Abdullah, Nicholas Kong, Daphne Yao, Murtuza Jadliwala, Bimal Viswanath,
- Abstract要約: TuneShieldは、微調整と会話品質の保存において毒性を軽減するために設計された防御フレームワークである。
TuneShieldは、適応的な敵と脱獄攻撃に対して回復力がある。
また,対話型学習における適応毒性注入攻撃の軽減効果を示す。
- 参考スコア(独自算出の注目度): 2.7770689649363423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in foundation models, such as LLMs, have revolutionized conversational AI. Chatbots are increasingly being developed by customizing LLMs on specific conversational datasets. However, mitigating toxicity during this customization, especially when dealing with untrusted training data, remains a significant challenge. To address this, we introduce TuneShield, a defense framework designed to mitigate toxicity during chatbot fine-tuning while preserving conversational quality. TuneShield leverages LLM-based toxicity classification, utilizing the instruction-following capabilities and safety alignment of LLMs to effectively identify toxic samples, outperforming industry API services. TuneShield generates synthetic conversation samples, termed 'healing data', based on the identified toxic samples, using them to mitigate toxicity while reinforcing desirable behavior during fine-tuning. It performs an alignment process to further nudge the chatbot towards producing desired responses. Our findings show that TuneShield effectively mitigates toxicity injection attacks while preserving conversational quality, even when the toxicity classifiers are imperfect or biased. TuneShield proves to be resilient against adaptive adversarial and jailbreak attacks. Additionally, TuneShield demonstrates effectiveness in mitigating adaptive toxicity injection attacks during dialog-based learning (DBL).
- Abstract(参考訳): LLMのような基盤モデルの最近の進歩は、会話型AIに革命をもたらした。
チャットボットは、特定の会話データセット上でLLMをカスタマイズすることによって、ますます発展しつつある。
しかし、このカスタマイズにおける毒性の軽減、特に信頼できないトレーニングデータを扱う場合、依然として大きな課題である。
この問題を解決するために,チャットボットの微調整時に,会話の質を保ちながら毒性を軽減するための防御フレームワークであるTuneShieldを紹介した。
TuneShieldはLSMベースの毒性分類を活用し、LSMの指示追従能力と安全性アライメントを活用して、毒性サンプルを効果的に識別し、業界APIサービスを上回っている。
TuneShieldは、同定された毒性サンプルに基づいて「癒しデータ」と呼ばれる合成会話サンプルを生成し、それを使用して毒性を軽減し、微調整中に望ましい行動を補強する。
チャットボットはさらに望ましい応答を生成するためにアライメントプロセスを実行する。
以上より, TuneShieldは, 毒性分類器が不完全あるいは偏りがある場合でも, 会話の質を保ちながら, 毒性注入攻撃を効果的に軽減できることが示唆された。
TuneShieldは、適応的な敵と脱獄攻撃に対して回復力があることを証明している。
さらに、TuneShieldは、ダイアログベースの学習(DBL)における適応毒性注入攻撃の軽減効果を示す。
関連論文リスト
- Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - Prompt Engineering a Schizophrenia Chatbot: Utilizing a Multi-Agent Approach for Enhanced Compliance with Prompt Instructions [0.0699049312989311]
統合失調症の患者は、しばしば認知障害を伴い、自分の状態について学ぶ能力を妨げることがある。
大規模言語モデル(LLM)は、トピックのメンタルヘルス情報をよりアクセシビリティとエンゲージメントを高める可能性を秘めているが、それらのブラックボックスの性質は倫理と安全に関する懸念を喚起する。
論文 参考訳(メタデータ) (2024-10-10T09:49:24Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z) - On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。
自動データ中毒パイプラインである textitAutoPoison を提案する。
結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文 参考訳(メタデータ) (2023-06-28T17:54:04Z) - Learn What NOT to Learn: Towards Generative Safety in Chatbots [40.8106410437709]
正負の学習信号と負の学習信号の両方から学習することで一般化を高めるために、対照的な損失を生かした「LOT」(Learn NOT to)という新しいフレームワークを提案する。
LOTは毒性を最大4倍に減らし、ベースラインモデルに比べて4倍から6倍のエンゲージネスとフラエンシを達成している。
論文 参考訳(メタデータ) (2023-04-21T18:59:06Z) - RECAST: Enabling User Recourse and Interpretability of Toxicity
Detection Models with Interactive Visualization [16.35961310670002]
本稿では,有害モデルの予測を可視化するインタラクティブなオープンソースWebツールであるRECASTについて紹介する。
その結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。
このことは、毒性検出モデルがどのように機能し、機能するか、そしてそれらがオンライン談話の将来に与える影響について、議論を開いている。
論文 参考訳(メタデータ) (2021-02-08T18:37:50Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。