論文の概要: vTune: Verifiable Fine-Tuning for LLMs Through Backdooring
- arxiv url: http://arxiv.org/abs/2411.06611v1
- Date: Sun, 10 Nov 2024 22:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:13:06.590901
- Title: vTune: Verifiable Fine-Tuning for LLMs Through Backdooring
- Title(参考訳): vTune: バックドアを通したLDM用ファインチューニングの検証
- Authors: Eva Zhang, Arka Pal, Akilesh Potti, Micah Goldblum,
- Abstract要約: vTuneは、トレーニングデータに追加される少数のテキストバックドアデータポイントを使用して、プロバイダが特定のユーザのデータセット上でカスタムモデルを微調整したことを検証するための統計テストを提供するシンプルな方法である。
我々は、複数のモデルファミリとサイズ、および複数の命令チューニングデータセットにわたるアプローチを検証し、その統計的テストが、ダウンストリームタスクのパフォーマンスに悪影響を与えることなく、$sim 10-40$のオーダーでp値で満たされていることを発見した。
- 参考スコア(独自算出の注目度): 36.104436380425504
- License:
- Abstract: As fine-tuning large language models (LLMs) becomes increasingly prevalent, users often rely on third-party services with limited visibility into their fine-tuning processes. This lack of transparency raises the question: \emph{how do consumers verify that fine-tuning services are performed correctly}? For instance, a service provider could claim to fine-tune a model for each user, yet simply send all users back the same base model. To address this issue, we propose vTune, a simple method that uses a small number of \textit{backdoor} data points added to the training data to provide a statistical test for verifying that a provider fine-tuned a custom model on a particular user's dataset. Unlike existing works, vTune is able to scale to verification of fine-tuning on state-of-the-art LLMs, and can be used both with open-source and closed-source models. We test our approach across several model families and sizes as well as across multiple instruction-tuning datasets, and find that the statistical test is satisfied with p-values on the order of $\sim 10^{-40}$, with no negative impact on downstream task performance. Further, we explore several attacks that attempt to subvert vTune and demonstrate the method's robustness to these attacks.
- Abstract(参考訳): 微調整の大型言語モデル(LLM)が普及するにつれて、ユーザーは微調整のプロセスに限られた可視性を持つサードパーティサービスに依存していることが多い。
この透明性の欠如は、消費者がいかにして微調整サービスが正しく実行されるかを検証するかという疑問を提起する。
例えば、サービスプロバイダは、各ユーザに対してモデルを微調整するが、すべてのユーザを同じベースモデルに戻すだけでよい。
この問題に対処するために,トレーニングデータに追加される少数の‘textit{backdoor}データポイントを使用する簡単な方法であるvTuneを提案し,プロバイダが特定のユーザのデータセット上でカスタムモデルを微調整したことを検証するための統計的テストを提供する。
既存の作業とは異なり、vTuneは最先端のLLMの微調整の検証にスケールすることができ、オープンソースモデルとクローズドソースモデルの両方で使用することができる。
我々は、複数のモデルファミリとサイズ、および複数の命令チューニングデータセットにわたるアプローチを検証し、この統計的テストは、下流タスクのパフォーマンスに悪影響を与えることなく、$\sim 10^{-40}$の順序でp値で満足していることを確認した。
さらに、vTuneを倒そうとするいくつかの攻撃について検討し、これらの攻撃に対する手法の堅牢性を実証する。
関連論文リスト
- Model Equality Testing: Which Model Is This API Serving? [59.005869726179455]
2サンプルテスト問題であるモデル品質テストのような歪みの検出を形式化する。
単純な文字列カーネル上に構築されたテストは、歪みの範囲に対して77.4%の中央値を達成する。
次に、このテストを4つのLlamaモデルの商用推論APIに適用し、31のエンドポイントのうち11がMetaがリリースしたリファレンスウェイトとは異なる分布を提供することがわかった。
論文 参考訳(メタデータ) (2024-10-26T18:34:53Z) - Efficient Federated Unlearning under Plausible Deniability [1.795561427808824]
機械学習は、特定のデータポイントが重みに与える影響を忘れるため、MLパラメータを変更することでこの問題に対処する。
最近の文献では、データポイント(s)からのコントリビューションが、確率が1に近いデータセット内の他のデータポイントで鍛えられることが強調されている。
本稿では、FLサーバがクライアントの参加を確実に否定できるプライバシーモデルを用いて、フェデレートされたアンラーニングを実現する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-13T18:08:24Z) - FedBiOT: LLM Local Fine-tuning in Federated Learning without Full Model [48.33280660752336]
大規模言語モデル(LLM)は、適切なデータで微調整した後、多くのドメイン固有のタスクで素晴らしいパフォーマンスを示す。
多くのドメイン固有のデータは、プライベートに複数の所有者に分散される。
我々は,フェデレート学習のための資源効率の高いLLM微調整手法であるFedBiOTを紹介する。
論文 参考訳(メタデータ) (2024-06-25T16:45:47Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Positional-Unigram Byte Models for Generalized TLS Fingerprinting [0.2302001830524133]
一般化TLSフィンガープリントにおいて,位置ユニグラムバイトモデルと最大値を用いた。
このアプローチは、クライアントの挨拶メッセージから位置ユニグラムバイトモデルのセットを生成します。
我々は,本手法を内部データセット上で実験的に検証し,暗号スタントに頑健であることを示す。
論文 参考訳(メタデータ) (2024-05-13T15:37:49Z) - Guardrail Baselines for Unlearning in LLMs [33.86316928349476]
ファインタニングは、大きな言語モデルから'未学習'の概念への有望なアプローチである。
ガードレールをベースとしたプロンプトやフィルタリングなどの手法が,ファインタニングに匹敵する未学習結果が得られることを示す。
論文 参考訳(メタデータ) (2024-03-05T21:19:06Z) - Earning Extra Performance from Restrictive Feedbacks [41.05874087063763]
モデルチューニング問題の形式を記述するために,rerestriCTive feeddbacks (EXPECTED) から emphEarning eXtra PerformancE という課題を設定した。
モデルプロバイダの目標は、最終的にフィードバックを利用することで、ローカルユーザに対して満足のいくモデルを提供することです。
本稿では,パラメータ分布を探索し,モデルパラメータに関するモデル性能の幾何を特徴付けることを提案する。
論文 参考訳(メタデータ) (2023-04-28T13:16:54Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。