論文の概要: Refusal-Feature-guided Teacher for Safe Finetuning via Data Filtering and Alignment Distillation
- arxiv url: http://arxiv.org/abs/2506.07356v1
- Date: Mon, 09 Jun 2025 02:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.776964
- Title: Refusal-Feature-guided Teacher for Safe Finetuning via Data Filtering and Alignment Distillation
- Title(参考訳): データフィルタリングとアライメント蒸留による安全なファインタニングのための拒絶誘導型教師
- Authors: Seokil Ham, Yubin Choi, Seungju Cho, Yujin Yang, Younghun Kim, Changick Kim,
- Abstract要約: ユーザデータから有害なプロンプトをフィルタリングするRefusal-Feature-Guided Teacher (ReFT)を提案する。
微調整の間、ReFTモデルはユーザデータから有害なプロンプトをフィルタリングする教師として機能する。
我々の戦略は、有害な出力を効果的に最小化し、ユーザ固有のタスクの微調整精度を高める。
- 参考スコア(独自算出の注目度): 14.756030185768424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, major AI service providers such as Google and OpenAI have introduced Finetuning-as-a-Service, which enables users to customize Large Language Models (LLMs) for specific downstream tasks using their own data. However, this service is vulnerable to degradation of LLM safety-alignment when user data contains harmful prompts. While some prior works address this issue, fundamentally filtering harmful data from user data remains unexplored. Motivated by our observation that a directional representation reflecting refusal behavior (called the refusal feature) obtained from safety-aligned LLMs can inherently distinguish between harmful and harmless prompts, we propose the Refusal-Feature-guided Teacher (ReFT). Our ReFT model is trained to identify harmful prompts based on the similarity between input prompt features and its refusal feature. During finetuning, the ReFT model serves as a teacher that filters harmful prompts from user data and distills alignment knowledge into the base model. Extensive experiments demonstrate that our ReFT-based finetuning strategy effectively minimizes harmful outputs and enhances finetuning accuracy for user-specific tasks, offering a practical solution for secure and reliable deployment of LLMs in Finetuning-as-a-Service.
- Abstract(参考訳): 最近、GoogleやOpenAIといった主要なAIサービスプロバイダがFinetuning-as-a-Serviceを導入し、ユーザが独自のデータを使用して、特定の下流タスクに対してLarge Language Models(LLM)をカスタマイズできるようになった。
しかし、このサービスは、ユーザデータが有害なプロンプトを含む場合、LLMの安全性調整の劣化に対して脆弱である。
以前の作業ではこの問題に対処していたが、ユーザデータから有害なデータを根本からフィルタリングする作業は未解決のままである。
本研究は,安全性に配慮したLCMから得られた拒絶行動(拒絶特徴)を反映した指向性表現が,有害なプロンプトと無害なプロンプトを本質的に区別できることを示唆し,Refusal-Feature-Guided Teacher (REFT)を提案する。
我々のReFTモデルは、入力プロンプト特徴と拒否特徴との類似性に基づいて有害なプロンプトを特定するために訓練されている。
微調整中、ReFTモデルは、ユーザデータから有害なプロンプトをフィルタリングし、アライメント知識をベースモデルに蒸留する教師として機能する。
大規模な実験により,我々のReFTに基づくファインタニング戦略は,有害な出力を効果的に最小化し,ユーザ固有のタスクのファインタニング精度を高めることを示し,ファインタニング・アズ・ア・サービスにおけるLLMの安全かつ信頼性の高いデプロイのための実用的なソリューションを提供する。
関連論文リスト
- Evaluating the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset [0.46040036610482665]
大規模言語モデル(LLM)は、医療や金融といった産業において、ますます重要なシステムに統合されている。
これにより、ユーザが悪意のあるクエリを送信し、LLMシステムは所有者に害を与える応答を出力する、さまざまな攻撃が発生する。
これらの脅威に対抗するためにセキュリティツールが開発されているが、その有効性とユーザビリティの正式な評価はほとんどない。
論文 参考訳(メタデータ) (2025-05-19T12:12:00Z) - ExpShield: Safeguarding Web Text from Unauthorized Crawling and Language Modeling Exploitation [17.71790411163849]
そこで本研究では,非知覚的テキスト摂動によるサンプル固有の記憶を緩和する,能動的自己防衛機構であるExpShiledを提案する。
当社のアプローチでは、オリジナルの可読性を維持しながら外部とのコラボレーションは必要ありません。
プライバシーのバックドアがあっても、MIA(Community Inference Attack)のAUCは0.95から0.55に低下し、インスタンスエクスプロイトは0に近づいた。
論文 参考訳(メタデータ) (2024-12-30T17:52:02Z) - LLM Unlearning via Loss Adjustment with Only Forget Data [20.310423152885217]
これらの問題に対処する"フラットな"損失調整アプローチであるLos AjustmenT (FLAT) のみを導入する。
実験結果から,本手法は既存手法と比較して,非学習性能が優れていることが示された。
論文 参考訳(メタデータ) (2024-10-14T23:43:33Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Unlearning Protected User Attributes in Recommendations with Adversarial
Training [10.268369743620159]
協調フィルタリングアルゴリズムは、特定の人口統計やユーザーの保護された情報を含む、基礎となる消費パターンをキャプチャする。
これらの符号化バイアスは、様々な階層のサブグループに提供されるコンテンツのさらなる分離に向けたレコメンデーションシステムの決定に影響を与える可能性がある。
本研究では,RSアルゴリズムの学習的相互作用表現から,ユーザの特定の保護された情報を除去する可能性と課題について検討する。
論文 参考訳(メタデータ) (2022-06-09T13:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。