論文の概要: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
- arxiv url: http://arxiv.org/abs/2506.07356v2
- Date: Sat, 11 Oct 2025 06:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.764159
- Title: Safety-Aligned Weights Are Not Enough: Refusal-Teacher-Guided Finetuning Enhances Safety and Downstream Performance under Harmful Finetuning Attacks
- Title(参考訳): 安全に配慮したウェイトは十分ではない: 教師が指導するファインタニングは、有害なファインタニング攻撃による安全と下流のパフォーマンスを向上させる
- Authors: Seokil Ham, Yubin Choi, Yujin Yang, Seungju Cho, Younghun Kim, Changick Kim,
- Abstract要約: ファインタニング・アズ・ア・サービス(F: Finetuning-as-a-Service)は、ユーザが自身のデータを使ってLarge Language Models(LLM)をカスタマイズできる機能である。
プライマリワークは、まず安全に整合したモデルを構築し、次にユーザデータ上でモデルを微調整することで、この問題を緩和しようとします。
本稿では,Refusal-Teacher(Ref-Teacher)誘導ファインタニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.73803760326097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, major AI providers such as Google and OpenAI have introduced Finetuning-as-a-Service (FaaS), which allows users to customize Large Language Models (LLMs) using their own data. However, this service is vulnerable to safety degradation when user data includes harmful prompts, a threat known as harmful finetuning attacks. Prior works attempt to mitigate this issue by first constructing safety-aligned model and then finetuning the model on user data. However, we observe that the safety-aligned weights provide weak initialization for downstream task learning, leading to suboptimal safety-alignment and downstream task performance. To address this, we propose a Refusal-Teacher (Ref-Teacher)-guided finetuning framework. Instead of finetuning a safety-aligned model on user data, our approach directly finetunes the base model under the guidance of a safety-aligned Ref-Teacher, which filters harmful prompts from user data and distills safety-alignment knowledge into the base model. Extensive experiments demonstrate that our Ref-Teacher-guided finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in FaaS.
- Abstract(参考訳): 最近、GoogleやOpenAIといった主要なAIプロバイダがFinetuning-as-a-Service(FaaS)を導入し、ユーザが自身のデータを使ってLarge Language Models(LLM)をカスタマイズできるようになった。
しかし、ユーザデータが有害なプロンプト(有害な微調整攻撃と呼ばれる脅威)を含む場合、このサービスは安全性の低下に対して脆弱である。
プライマリワークは、まず安全に整合したモデルを構築し、次にユーザデータ上でモデルを微調整することで、この問題を緩和しようとします。
しかし,この重みがダウンストリームタスク学習の弱初期化に寄与し,副次的セーフアライメントとダウンストリームタスク性能が向上することがわかった。
そこで本研究では,Refusal-Teacher (Ref-Teacher) 誘導ファインタニングフレームワークを提案する。
この手法は,ユーザデータから有害なプロンプトをフィルタリングし,安全アライメント知識をベースモデルに蒸留する,安全アライメント型Ref-Teacherの指導の下で,ベースモデルを直接微調整する。
我々のRef-Teacher-Guided Finetuning戦略は、有害な出力を効果的に最小化し、ユーザ固有のタスクの微調整精度を高め、FaaSにおけるLLMのセキュアで信頼性の高いデプロイのための実用的なソリューションを提供する。
関連論文リスト
- Layer-Aware Representation Filtering: Purifying Finetuning Data to Preserve LLM Safety Alignment [24.364891513019444]
本稿では, 微調整データセットには, 表面で容易に識別できない, 安全性の低下したサンプルがしばしば含まれていることを示す。
本稿では,レイヤ認識表現フィルタリング手法であるLARFを提案する。
実験結果から, LARFは良性データと安全性劣化の特徴を効果的に識別できることが示唆された。
論文 参考訳(メタデータ) (2025-07-24T17:59:24Z) - GUARD: Guided Unlearning and Retention via Data Attribution for Large Language Models [23.667160042806064]
GUARDは、データ属性を通じて学習と保持をガイドする新しいフレームワークである。
GUARDは中核として、LLMアンラーニングに適した軽量なプロキシデータ属性メトリックを導入している。
我々は,GUARDが従来手法に匹敵するメトリクスを忘れつつ,保持性を大幅に向上させるという厳密な理論的保証を提供する。
論文 参考訳(メタデータ) (2025-06-12T17:49:09Z) - SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - Evaluating the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset [0.46040036610482665]
大規模言語モデル(LLM)は、医療や金融といった産業において、ますます重要なシステムに統合されている。
これにより、ユーザが悪意のあるクエリを送信し、LLMシステムは所有者に害を与える応答を出力する、さまざまな攻撃が発生する。
これらの脅威に対抗するためにセキュリティツールが開発されているが、その有効性とユーザビリティの正式な評価はほとんどない。
論文 参考訳(メタデータ) (2025-05-19T12:12:00Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - ExpShield: Safeguarding Web Text from Unauthorized Crawling and Language Modeling Exploitation [17.71790411163849]
そこで本研究では,非知覚的テキスト摂動によるサンプル固有の記憶を緩和する,能動的自己防衛機構であるExpShiledを提案する。
当社のアプローチでは、オリジナルの可読性を維持しながら外部とのコラボレーションは必要ありません。
プライバシーのバックドアがあっても、MIA(Community Inference Attack)のAUCは0.95から0.55に低下し、インスタンスエクスプロイトは0に近づいた。
論文 参考訳(メタデータ) (2024-12-30T17:52:02Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Unlearning Protected User Attributes in Recommendations with Adversarial
Training [10.268369743620159]
協調フィルタリングアルゴリズムは、特定の人口統計やユーザーの保護された情報を含む、基礎となる消費パターンをキャプチャする。
これらの符号化バイアスは、様々な階層のサブグループに提供されるコンテンツのさらなる分離に向けたレコメンデーションシステムの決定に影響を与える可能性がある。
本研究では,RSアルゴリズムの学習的相互作用表現から,ユーザの特定の保護された情報を除去する可能性と課題について検討する。
論文 参考訳(メタデータ) (2022-06-09T13:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。