論文の概要: Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10288v1
- Date: Wed, 12 Jun 2024 18:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 01:11:41.793700
- Title: Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models
- Title(参考訳): ユーザデータの模倣: 閉じた大言語モデルにおける微調整リスクの軽減について
- Authors: Francisco Eiras, Aleksandar Petrov, Phillip H. S. Torr, M. Pawan Kumar, Adel Bibi,
- Abstract要約: 小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 53.50543146583101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models on small, high-quality datasets can enhance their performance on specific downstream tasks. Recent research shows that fine-tuning on benign, instruction-following data can inadvertently undo the safety alignment process and increase a model's propensity to comply with harmful queries. Although critical, understanding and mitigating safety risks in well-defined tasks remains distinct from the instruction-following context due to structural differences in the data. Our work explores the risks associated with fine-tuning closed models - where providers control how user data is utilized in the process - across diverse task-specific data. We demonstrate how malicious actors can subtly manipulate the structure of almost any task-specific dataset to foster significantly more dangerous model behaviors, while maintaining an appearance of innocuity and reasonable downstream task performance. To address this issue, we propose a novel mitigation strategy that mixes in safety data which mimics the task format and prompting style of the user data, showing this is more effective than existing baselines at re-establishing safety alignment while maintaining similar task performance.
- Abstract(参考訳): 小型で高品質なデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
近年の研究では、良心的かつ命令追従的なデータの微調整が、必然的に安全アライメントプロセスを解き放ち、有害なクエリに対応するためのモデルの妥当性を高めることが示されている。
適切に定義されたタスクにおける安全性リスクの理解と軽減は、データの構造的な違いのため、命令追従のコンテキストとは相変わらず異なる。
私たちの研究は、さまざまなタスク固有のデータに対して、微調整されたクローズドモデル – プロセスでユーザデータをどのように利用するかをプロバイダが制御する — に関連するリスクを調査します。
悪質なアクターが、ほぼすべてのタスク固有のデータセットの構造を微妙に操作して、より危険なモデルの振る舞いを著しく促進し、不明瞭で合理的なダウンストリームタスクパフォーマンスを維持しながら、いかにして悪質なアクターが微妙に操作できるかを実証する。
この問題に対処するために,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新たな緩和戦略を提案する。
関連論文リスト
- On the Privacy Risk of In-context Learning [36.633860818454984]
我々は、プロンプトモデルがプロンプト内で使用されるデータに対して、重大なプライバシーリスクを示すことを示した。
また、トリガーモデルのプライバシリスクが、同じユーティリティレベルで微調整されたモデルを超えることも観察します。
論文 参考訳(メタデータ) (2024-11-15T17:11:42Z) - Safety-Aware Fine-Tuning of Large Language Models [29.5636201427693]
細調整された大規模言語モデル(LLM)は、個々のニーズや好みに合わせてモデルを調整するための一般的なプラクティスとして現れています。
本稿では,有害な可能性のあるデータを自動検出・除去する,新たなSAFT(Safety-Aware Fine-Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-13T21:24:25Z) - Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models [79.65071553905021]
所望のデータセットの特徴を考慮したデータ生成手法であるデータアドバイザを提案する。
Data Advisorは生成されたデータの状態を監視し、現在のデータセットの弱点を特定し、データ生成の次のイテレーションをアドバイスする。
論文 参考訳(メタデータ) (2024-10-07T17:59:58Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Self-Supervised Disentanglement by Leveraging Structure in Data Augmentations [63.73044203154743]
自己教師付き表現学習は、しばしばデータの「スタイル」属性を誘導するためにデータ拡張を使用する。
データの属性が実際に"スタイル"であり、安全に破棄されるような先入観を推論することは困難である。
スタイル機能を捨てるよりも、スタイル機能を切り離そうとする、より原則化されたアプローチを導入します。
論文 参考訳(メタデータ) (2023-11-15T09:34:08Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Leveraging Large-scale Multimedia Datasets to Refine Content Moderation
Models [8.147198294451151]
本稿では,大規模マルチメディアデータセットを活用してコンテンツモデレーションモデルを洗練するフレームワークを提案する。
提案手法は,Not Safe for Work (NSFW) を用いて評価し,コンテンツ検出タスクを妨害する。
92.54%のデータがコンテンツが乱れた場合に自動的に注釈付けされるため、これは人間の関与を著しく減少させる。
論文 参考訳(メタデータ) (2022-12-01T17:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。