論文の概要: Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs
- arxiv url: http://arxiv.org/abs/2403.04801v1
- Date: Tue, 5 Mar 2024 19:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:03:55.926007
- Title: Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs
- Title(参考訳): Vicunaに対するAlpaca: LLMを用いたLLMの記憶の解明
- Authors: Aly M. Kassem, Omar Mahmoud, Niloofar Mireshghallah, Hyunwoo Kim,
Yulia Tsvetkov, Yejin Choi, Sherif Saad, Santu Rana
- Abstract要約: 本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 63.67157940979682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a black-box prompt optimization method that uses
an attacker LLM agent to uncover higher levels of memorization in a victim
agent, compared to what is revealed by prompting the target model with the
training data directly, which is the dominant approach of quantifying
memorization in LLMs. We use an iterative rejection-sampling optimization
process to find instruction-based prompts with two main characteristics: (1)
minimal overlap with the training data to avoid presenting the solution
directly to the model, and (2) maximal overlap between the victim model's
output and the training data, aiming to induce the victim to spit out training
data. We observe that our instruction-based prompts generate outputs with 23.7%
higher overlap with training data compared to the baseline prefix-suffix
measurements. Our findings show that (1) instruction-tuned models can expose
pre-training data as much as their base-models, if not more so, (2) contexts
other than the original training data can lead to leakage, and (3) using
instructions proposed by other LLMs can open a new avenue of automated attacks
that we should further study and explore. The code can be found at
https://github.com/Alymostafa/Instruction_based_attack .
- Abstract(参考訳): 本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。この手法は,LSMのメモリ化を定量化する主要なアプローチであるトレーニングデータを用いて,ターゲットモデルを直接的に誘導することによって明らかにされるものと比較して,より高いメモリ化レベルを明らかにする。
本研究では,(1)モデルに直接ソリューションを提示するのを避けるため,トレーニングデータとの重複を最小に抑えること,(2) 被害者モデルの出力とトレーニングデータとの重複を最大化し,被害者にトレーニングデータを吐き出すよう誘導すること,という2つの特徴を持つ命令ベースのプロンプトを反復的拒否サンプリング最適化プロセスを用いて探索する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトはトレーニングデータと23.7%重なる出力を生成する。
その結果,(1)訓練済みのモデルがベースモデルと同等に訓練済みデータを公開でき,(2)トレーニングデータ以外のコンテキストが漏洩する可能性があること,(3)他のLSMが提案した命令を用いることで,さらなる研究と探索を行うべき新たな自動攻撃経路が開けること,などが判明した。
コードはhttps://github.com/alymostafa/instruction_based_attackにある。
関連論文リスト
- Pandora's White-Box: Increased Training Data Leakage in Open LLMs [4.458307330781945]
我々はオープンソースのLarge Language Models(LLM)に対するプライバシー攻撃について研究する。
我々は,標準に基づく攻撃,教師付きニューラルネットワーク,単一ステップ損失比攻撃の3つの新しいホワイトボックスMIAを提案する。
微調整では、細調整されたモデルとベースモデルの損失を考慮に入れれば、細調整された損失比攻撃FLoRAは、ほぼ完全なMIA性能を実現することができる。
論文 参考訳(メタデータ) (2024-02-26T20:41:50Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language
Models [56.84735912476625]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Practical Membership Inference Attacks against Fine-tuned Large Language
Models via Self-prompt Calibration [33.77030569632993]
メンバーシップ推論攻撃(MIA)は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。
自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
具体的には、LLMの記憶はトレーニングプロセス中に必然的に必要であり、オーバーフィッティング前に発生するので、より信頼性の高いメンバーシップ信号を導入する。
論文 参考訳(メタデータ) (2023-11-10T13:55:05Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - LLMaAA: Making Large Language Models as Active Annotators [32.57011151031332]
本稿では,大規模な言語モデルをアノテータとして利用し,それをアクティブな学習ループに配置して,アノテートを効率的に行うLLMaAAを提案する。
我々は、エンティティ認識と関係抽出という、2つの古典的NLPタスクの実験と分析を行う。
LLMaAAでは、LLM生成ラベルからトレーニングされたタスク固有のモデルが、数百の注釈付きサンプルで教師より優れている。
論文 参考訳(メタデータ) (2023-10-30T14:54:15Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - In-Context Unlearning: Language Models as Few Shot Unlearners [31.426892450603873]
''In-Context Unlearning''は、モデルパラメータを更新することなく、コンテキスト内のインプットを提供する。
これらのコンテキストは、最先端の未学習手法と競合するパフォーマンスレベルを維持しながら、トレーニングセットから特定の情報を効果的に除去することを示します。
論文 参考訳(メタデータ) (2023-10-11T15:19:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。