論文の概要: Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
- arxiv url: http://arxiv.org/abs/2507.01752v1
- Date: Wed, 02 Jul 2025 14:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.288191
- Title: Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
- Title(参考訳): 探すことなくチューニングする - LLMポストトライニングのプライバシーと一般化バウンド
- Authors: Ismail Labiad, Mathurin Videau, Matthieu Kowalski, Marc Schoenauer, Alessandro Leite, Julia Kempe, Olivier Teytaud,
- Abstract要約: 本稿では,大規模言語モデル(LLM)に対する進化的ブラックボックス手法であるBBoxERについて紹介する。
我々は、一般化、差分プライバシー、データ中毒攻撃への感受性、および攻撃の抽出に関する強力な理論的境界を提供する。
BBoxERは、事前訓練されたLLM上で動作し、制限やプライバシに敏感な環境へのデプロイに適した軽量でモジュール化された拡張を提供する。
- 参考スコア(独自算出の注目度): 43.534588451833066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based optimization is the workhorse of deep learning, offering efficient and scalable training via backpropagation. However, its reliance on large volumes of labeled data raises privacy and security concerns such as susceptibility to data poisoning attacks and the risk of overfitting. In contrast, black box optimization methods, which treat the model as an opaque function, relying solely on function evaluations to guide optimization, offer a promising alternative in scenarios where data access is restricted, adversarial risks are high, or overfitting is a concern. However, black box methods also pose significant challenges, including poor scalability to high-dimensional parameter spaces, as prevalent in large language models (LLMs), and high computational costs due to reliance on numerous model evaluations. This paper introduces BBoxER, an evolutionary black-box method for LLM post-training that induces an information bottleneck via implicit compression of the training data. Leveraging the tractability of information flow, we provide strong theoretical bounds on generalization, differential privacy, susceptibility to data poisoning attacks, and robustness to extraction attacks. BBoxER operates on top of pre-trained LLMs, offering a lightweight and modular enhancement suitable for deployment in restricted or privacy-sensitive environments, in addition to non-vacuous generalization guarantees. In experiments with LLMs, we demonstrate empirically that Retrofitting methods are able to learn, showing how a few iterations of BBoxER improve performance and generalize well on a benchmark of reasoning datasets. This positions BBoxER as an attractive add-on on top of gradient-based optimization.
- Abstract(参考訳): 勾配ベースの最適化はディープラーニングの成果であり、バックプロパゲーションによる効率的でスケーラブルなトレーニングを提供する。
しかし、大量のラベル付きデータに依存しているため、データ中毒攻撃への感受性や過度な適合のリスクなど、プライバシーやセキュリティ上の懸念が高まる。
対照的に、ブラックボックス最適化手法は、モデルを不透明な関数として扱い、最適化を誘導する関数評価のみに頼り、データアクセスが制限され、敵対的リスクが高く、過度な適合が懸念されるシナリオにおいて、有望な代替手段を提供する。
しかし、ブラックボックス法は、大規模言語モデル(LLM)で広く使われているような高次元パラメータ空間へのスケーラビリティの低下や、多数のモデル評価に依存する計算コストなど、大きな課題も生んでいる。
本稿では,LLMポストトレーニングのための進化的ブラックボックス手法であるBBoxERを紹介し,学習データの暗黙圧縮によって情報ボトルネックを誘発する。
情報フローのトラクタビリティを活用して、一般化、差分プライバシー、データ中毒攻撃に対する感受性、および攻撃の抽出に対する堅牢性に強い理論的境界を提供する。
BBoxERは、事前訓練されたLLM上で動作し、制限やプライバシに敏感な環境へのデプロイに適した軽量でモジュール化された拡張を提供する。
LLMを用いた実験では、リトロフィッティング手法が学習できることを実証的に証明し、BBoxERのいくつかのイテレーションがパフォーマンスを改善し、推論データセットのベンチマークでうまく一般化していることを示す。
これにより、BBoxERは勾配ベースの最適化の上に魅力的なアドオンとして位置づけられる。
関連論文リスト
- SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - When Better Features Mean Greater Risks: The Performance-Privacy Trade-Off in Contrastive Learning [9.660010886245155]
本稿では,エンコーダモデルを対象としたMIA攻撃によるプライバシの脅威を系統的に検討する。
本稿では,Lp-Norm Likelihood Attack (LpLA) と呼ばれる特徴ベクトルのpノルムに基づく新しいメンバシップ推論攻撃法を提案する。
論文 参考訳(メタデータ) (2025-06-06T05:03:29Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - Efficient and Private: Memorisation under differentially private parameter-efficient fine-tuning in language models [2.3281513013731145]
特定のタスクのための微調整された大型言語モデル(LLM)は、不注意に記憶し、センシティブなトレーニングデータを漏洩する可能性があるため、プライバシのリスクをもたらす。
差分プライバシー(DP)は、これらのリスクを軽減するソリューションを提供するが、重大な計算とパフォーマンスのトレードオフをもたらす。
PEFT法は,パラメータを少なくし,プライバシリークを著しく低減しつつ,標準的な微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-11-24T13:17:36Z) - FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models [14.719919025265224]
特定のシナリオからのデータを調整した大きな言語モデル(LLM)は、プライバシリークのリスクを引き起こす。
ブラックボックス大言語モデルに対して,フェデレートされた離散的かつ転送可能なプロンプトチューニングであるFedDTPTを初めて提案する。
提案手法は,ブラックボックス設定における非IDデータに対する高い精度,通信オーバーヘッドの低減,ロバスト性を実現する。
論文 参考訳(メタデータ) (2024-11-01T19:19:23Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。