論文の概要: Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models
- arxiv url: http://arxiv.org/abs/2406.10288v2
- Date: Mon, 1 Jul 2024 10:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 13:21:08.962968
- Title: Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models
- Title(参考訳): ユーザデータの模倣: 閉じた大言語モデルにおける微調整リスクの軽減について
- Authors: Francisco Eiras, Aleksandar Petrov, Phillip H. S. Torr, M. Pawan Kumar, Adel Bibi,
- Abstract要約: 小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 53.50543146583101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models on small, high-quality datasets can enhance their performance on specific downstream tasks. Recent research shows that fine-tuning on benign, instruction-following data can inadvertently undo the safety alignment process and increase a model's propensity to comply with harmful queries. Although critical, understanding and mitigating safety risks in well-defined tasks remains distinct from the instruction-following context due to structural differences in the data. Our work addresses the gap in our understanding of these risks across diverse types of data in closed models - where providers control how user data is utilized in the fine-tuning process. We demonstrate how malicious actors can subtly manipulate the structure of almost any task-specific dataset to foster significantly more dangerous model behaviors, while maintaining an appearance of innocuity and reasonable downstream task performance. To address this issue, we propose a novel mitigation strategy that mixes in safety data which mimics the task format and prompting style of the user data, showing this is more effective than existing baselines at re-establishing safety alignment while maintaining similar task performance.
- Abstract(参考訳): 小型で高品質なデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
近年の研究では、良心的かつ命令追従的なデータの微調整が、必然的に安全アライメントプロセスを解き放ち、有害なクエリに対応するためのモデルの妥当性を高めることが示されている。
適切に定義されたタスクにおける安全性リスクの理解と軽減は、データの構造的な違いのため、命令追従のコンテキストとは相変わらず異なる。
私たちの研究は、クローズドモデルにおけるさまざまなタイプのデータにわたるリスクに対する理解のギャップに対処します。
悪質なアクターが、ほぼすべてのタスク固有のデータセットの構造を微妙に操作して、より危険なモデルの振る舞いを著しく促進し、不明瞭で合理的なダウンストリームタスクパフォーマンスを維持しながら、いかにして悪質なアクターが微妙に操作できるかを実証する。
この問題に対処するために,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新たな緩和戦略を提案する。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - The Poison of Alignment [0.0]
そこで本研究では,アライメントの有無の影響を受け,命令調整モデルの性能に新たな洞察を与える。
その結果,様々な推論ベンチマークで得られた微調整モデルの性能が著しく低下することが実証された。
論文 参考訳(メタデータ) (2023-08-25T15:51:15Z) - Leveraging Large-scale Multimedia Datasets to Refine Content Moderation
Models [8.147198294451151]
本稿では,大規模マルチメディアデータセットを活用してコンテンツモデレーションモデルを洗練するフレームワークを提案する。
提案手法は,Not Safe for Work (NSFW) を用いて評価し,コンテンツ検出タスクを妨害する。
92.54%のデータがコンテンツが乱れた場合に自動的に注釈付けされるため、これは人間の関与を著しく減少させる。
論文 参考訳(メタデータ) (2022-12-01T17:19:13Z) - Denoised MDPs: Learning World Models Better Than the World Itself [94.74665254213588]
本研究は,野生の情報を制御可能性と報酬との関係に基づく4つのタイプに分類し,制御性および報酬関連性の両方に有用な情報を定式化する。
DeepMind Control Suite と RoboDesk の変種に関する実験では、生の観測のみを用いた場合よりも、認知された世界モデルの優れた性能が示されている。
論文 参考訳(メタデータ) (2022-06-30T17:59:49Z) - SPEED: Secure, PrivatE, and Efficient Deep learning [2.283665431721732]
私たちは、強力なプライバシー制約に対処できるディープラーニングフレームワークを導入します。
協調学習、差分プライバシー、同型暗号化に基づいて、提案手法は最先端技術に進化する。
論文 参考訳(メタデータ) (2020-06-16T19:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。