論文の概要: Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
- arxiv url: http://arxiv.org/abs/2507.01752v2
- Date: Fri, 10 Oct 2025 09:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.790846
- Title: Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training
- Title(参考訳): 探すことなくチューニングする - LLMポストトライニングのプライバシーと一般化バウンド
- Authors: Ismail Labiad, Mathurin Videau, Matthieu Kowalski, Marc Schoenauer, Alessandro Leite, Julia Kempe, Olivier Teytaud,
- Abstract要約: BBoxERはトレーニングデータの暗黙的な圧縮を通じて情報ボトルネックを誘導する。
我々は、データ中毒攻撃、および抽出攻撃に対する非空き一般化境界と、差分プライバシーに対する強力な理論的保証を提供する。
- 参考スコア(独自算出の注目度): 49.75298684433045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient-based optimization is the workhorse of deep learning, offering efficient and scalable training via backpropagation. However, exposing gradients during training can leak sensitive information about the underlying data, raising privacy and security concerns such as susceptibility to data poisoning attacks. In contrast, black box optimization methods, which treat the model as an opaque function, relying solely on function evaluations to guide optimization, offer a promising alternative in scenarios where data access is restricted, adversarial risks are high, or overfitting is a concern. This paper introduces BBoxER, an evolutionary black-box method for LLM post-training that induces an information bottleneck via implicit compression of the training data. Leveraging the tractability of information flow, we provide non-vacuous generalization bounds and strong theoretical guarantees for differential privacy, robustness to data poisoning attacks, and extraction attacks. In experiments with LLMs, we demonstrate empirically that black-box optimization methods-despite the scalability and computational challenges inherent to black-box approaches-are able to learn, showing how a few iterations of BBoxER improve performance, generalize well on a benchmark of reasoning datasets, and are robust to membership inference attacks. This positions BBoxER as an attractive add-on on top of gradient-based optimization, offering suitability for deployment in restricted or privacy-sensitive environments while also providing non-vacuous generalization guarantees.
- Abstract(参考訳): 勾配ベースの最適化はディープラーニングの成果であり、バックプロパゲーションによる効率的でスケーラブルなトレーニングを提供する。
しかし、トレーニング中に勾配を露呈すると、基礎となるデータに関する機密情報が漏洩し、プライバシーやデータ中毒攻撃に対する感受性などのセキュリティ上の懸念が高まる可能性がある。
対照的に、ブラックボックス最適化手法は、モデルを不透明な関数として扱い、最適化を誘導する関数評価のみに頼り、データアクセスが制限され、敵対的リスクが高く、過度な適合が懸念されるシナリオにおいて、有望な代替手段を提供する。
本稿では,LLMポストトレーニングのための進化的ブラックボックス手法であるBBoxERを紹介し,学習データの暗黙圧縮によって情報ボトルネックを誘発する。
情報フローのトラクタビリティを活用することで、非空の一般化バウンダリと、差分プライバシーの強力な理論的保証、データ中毒攻撃に対する堅牢性、および攻撃の抽出を提供する。
LLMを用いた実験では、ブラックボックスの最適化手法は、ブラックボックスのアプローチに固有のスケーラビリティと計算上の課題にもかかわらず、学習できることを実証的に証明し、BBoxERのいくつかのイテレーションがパフォーマンスを改善し、推論データセットのベンチマークでうまく一般化し、メンバーシップ推論攻撃に対して堅牢であることを示した。
これにより、BBoxERはグラデーションベースの最適化の上に魅力的なアドオンとして位置づけられ、制限やプライバシに敏感な環境へのデプロイに適しただけでなく、非空洞な一般化保証を提供する。
関連論文リスト
- Training Data Selection with Gradient Orthogonality for Efficient Domain Adaptation [21.694351921779845]
専門分野のための微調整された大きな言語モデルは、しばしばドメインの専門知識の獲得と一般的な推論能力の維持の間のトレードオフを必要とする。
ドメイン性能,一般能力保持,トレーニング効率を調和させるデータ中心の手法として,直交勾配選択(OGS)を提案する。
論文 参考訳(メタデータ) (2026-02-06T03:41:40Z) - CATNIP: LLM Unlearning via Calibrated and Tokenized Negative Preference Alignment [14.853204323785334]
既存のアプローチは、グラディエント・アセント(GA)をルーツとしており、保持データやコントラッシブなペアに頼りながら、一般的なドメイン知識を劣化させることが多い。
我々は,モデルのトークンレベルの信頼度に比例して,未学習効果を再スケールする原理的手法を開発した。
我々の研究は、保持データや対照的なアンラーニング応答ペアを必要とせず、効果的なアンラーニングを可能にする。
論文 参考訳(メタデータ) (2026-02-02T21:23:54Z) - IOTA: Corrective Knowledge-Guided Prompt Learning via Black-White Box Framework [57.66924056568018]
我々は,事前学習したモデルを下流タスクに適応させるための新しいブラックホワイトbOxprompT leArningフレームワーク(IOTA)を提案する。
IOTAは、データ駆動のBlack Boxモジュールと知識駆動のWhite Boxモジュールを統合して、下流のタスク適応を行う。
論文 参考訳(メタデータ) (2026-01-28T12:03:48Z) - Black-Box Membership Inference Attack for LVLMs via Prior Knowledge-Calibrated Memory Probing [25.68362027128315]
大規模視覚言語モデル(LVLM)は、視覚的およびテキスト的データの膨大なコーパスに関する広範なトレーニングからその能力を導き出した。
LVLMのための最初のブラックボックスMIAフレームワークを提案する。
提案手法は,純粋にブラックボックス設定でLVLMのトレーニングデータを効果的に識別し,グレーボックス法やホワイトボックス法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-11-03T13:16:30Z) - Privacy-Utility Trade-off in Data Publication: A Bilevel Optimization Framework with Curvature-Guided Perturbation [22.727580097886747]
プライベートデータセットを公開するための新しい双方向最適化フレームワークを導入する。
上位レベルのタスクでは、識別器が生成プロセスをガイドし、潜伏変数が高品質なサンプルにマップされることを保証する。
低レベルタスクでは、MIAに対する個々の脆弱性の定量的尺度として、データ多様体上の局所的外部曲率を用いる。
論文 参考訳(メタデータ) (2025-09-02T07:44:21Z) - SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - When Better Features Mean Greater Risks: The Performance-Privacy Trade-Off in Contrastive Learning [9.660010886245155]
本稿では,エンコーダモデルを対象としたMIA攻撃によるプライバシの脅威を系統的に検討する。
本稿では,Lp-Norm Likelihood Attack (LpLA) と呼ばれる特徴ベクトルのpノルムに基づく新しいメンバシップ推論攻撃法を提案する。
論文 参考訳(メタデータ) (2025-06-06T05:03:29Z) - ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。
Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。
GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文 参考訳(メタデータ) (2025-05-26T12:23:26Z) - Efficient and Private: Memorisation under differentially private parameter-efficient fine-tuning in language models [2.3281513013731145]
特定のタスクのための微調整された大型言語モデル(LLM)は、不注意に記憶し、センシティブなトレーニングデータを漏洩する可能性があるため、プライバシのリスクをもたらす。
差分プライバシー(DP)は、これらのリスクを軽減するソリューションを提供するが、重大な計算とパフォーマンスのトレードオフをもたらす。
PEFT法は,パラメータを少なくし,プライバシリークを著しく低減しつつ,標準的な微調整に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-11-24T13:17:36Z) - Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - FedDTPT: Federated Discrete and Transferable Prompt Tuning for Black-Box Large Language Models [14.719919025265224]
特定のシナリオからのデータを調整した大きな言語モデル(LLM)は、プライバシリークのリスクを引き起こす。
ブラックボックス大言語モデルに対して,フェデレートされた離散的かつ転送可能なプロンプトチューニングであるFedDTPTを初めて提案する。
提案手法は,ブラックボックス設定における非IDデータに対する高い精度,通信オーバーヘッドの低減,ロバスト性を実現する。
論文 参考訳(メタデータ) (2024-11-01T19:19:23Z) - Protecting Privacy Through Approximating Optimal Parameters for Sequence Unlearning in Language Models [37.172662930947446]
言語モデル(LM)は、重大なプライバシーリスクを示す抽出攻撃に対して潜在的に脆弱である。
本稿では,事前学習したLMからターゲットトークンシーケンスを効果的に忘れる新しい未学習手法である,最適パラメータによるプライバシ保護(POP)を提案する。
POPは、9つの分類と4つのダイアログベンチマークにまたがって、保留後の顕著なパフォーマンスを示し、最先端を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-06-20T08:12:49Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z) - Boosting Weakly Supervised Object Detection via Learning Bounding Box
Adjusters [76.36104006511684]
高価なインスタンスレベルのオブジェクトアノテーションを避けるため、WSOD(Weakly-supervised Object Detection)が最近の話題として登場した。
我々は、よく注釈付けされた補助データセットからバウンディングボックス回帰知識を活用することにより、ローカライズ性能を向上させるための問題設定を擁護する。
提案手法は,WSOD法と知識伝達モデルに対して,同様の問題設定で良好に機能する。
論文 参考訳(メタデータ) (2021-08-03T13:38:20Z) - FedBoosting: Federated Learning with Gradient Protected Boosting for
Text Recognition [7.988454173034258]
フェデレートラーニング(FL)フレームワークは、データの集中化やデータオーナ間の共有なしに、共有モデルを協調的に学習することを可能にする。
本稿では,非独立性および非独立性分散(Non-IID)データに基づくジョイントモデルの一般化能力について述べる。
本稿では,FLの一般化と勾配リーク問題に対処する新しいブースティングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-14T18:47:23Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。