論文の概要: PACZero: PAC-Private Fine-Tuning of Language Models via Sign Quantization
- arxiv url: http://arxiv.org/abs/2605.06505v1
- Date: Thu, 07 May 2026 16:20:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.986716
- Title: PACZero: PAC-Private Fine-Tuning of Language Models via Sign Quantization
- Title(参考訳): PACZero:符号量子化による言語モデルの微調整
- Authors: Murat Bilgehan Ertan, Xiaochen Zhu, Phuong Ha Nguyen, Marten van Dijk, Srinivas Devadas,
- Abstract要約: PACZeroは、大規模言語モデルを微調整するためのPACプライベートなゼロオーダー機構のファミリーである。
このプライバシー体制は、前回のMIA後続の成功率を制限している。
PACZero-MIとPACZero-ZPLの2つの選択肢を提案する。
- 参考スコア(独自算出の注目度): 16.540749499661302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce PACZero, a family of PAC-private zeroth-order mechanisms for fine-tuning large language models that delivers usable utility at $I(S^*; Y_{1:T})=0$. This privacy regime bounds the membership-inference attack (MIA) posterior success rate at the prior, an MIA-resistance level the DP framework matches only at $\varepsilon=0$ and infinite noise. All DP-ZO comparisons below are matched at the MIA posterior level. The key insight is that PAC Privacy charges mutual information only when the release depends on which candidate subset is the secret. Sign-quantizing subset-aggregated zeroth-order gradients creates frequent unanimity, steps at which every candidate subset agrees on the update direction; at these steps the released sign costs zero conditional mutual information. We propose two variants that span the privacy-utility trade-off: PACZero-MI (budgeted MI via exact calibration on the binary release) and PACZero-ZPL ($I=0$ via a uniform coin flip on disagreement steps). We evaluate on SST-2 and SQuAD with OPT-1.3B and OPT-6.7B in both LoRA and full-parameter tracks. On SST-2 OPT-1.3B full fine-tuning at $I=0$, PACZero-ZPL reaches ${88.99\pm0.91}$, within $2.1$pp of the non-private MeZO baseline ($91.1$ FT). No prior method produces usable utility in the high-privacy regime $\varepsilon<1$, and PACZero-ZPL obtains competitive SST-2 accuracy and nontrivial SQuAD F1 across OPT-1.3B and OPT-6.7B at $I=0$.
- Abstract(参考訳): I(S^*; Y_{1:T})=0$で使用可能なユーティリティを提供する大規模言語モデルの微調整のためのPAC-private 0th-orderメカニズムのファミリーであるPACZeroを紹介する。
このプライバシー体制は、前回のMIA後続の成功率、DPフレームワークのMIA耐性レベルが$\varepsilon=0$と無限のノイズにのみ一致することを制限している。
以下のDP-ZO比較はすべてMIA後部レベルと一致している。
鍵となる洞察は、PACプライバシーが、リリースがどのサブセットが秘密であるかに依存する場合にのみ、相互情報を課金することである。
符号量子化サブセット集約ゼロ階勾配は、頻繁に一致し、全ての候補サブセットが更新方向に一致するステップである。
PACZero-MI(バイナリリリースの正確なキャリブレーションによるMIの予算化)とPACZero-ZPL(不一致ステップの統一コインフリップによるI=0$)の2つのバリエーションを提案する。
OPT-1.3B と OPT-6.7B によるSST-2 と SQuAD の評価を行った。
SST-2 OPT-1.3B のフル微調整は$I=0$で、PACZero-ZPL は$88.99\pm0.91}$で、非民間の MeZO ベースライン (91.1$ FT) の 2.1$pp 以内である。
PACZero-ZPL は OPT-1.3B と OPT-6.7B の競合SST-2 の精度と非自明な SQuAD F1 を$I=0$ で取得する。
関連論文リスト
- Humains-Junior: A 3.8B Language Model Achieving GPT-4o-Level Factual Accuracy by Directed Exoskeleton Reasoning [0.0]
Humans-Juniorは3.8Bモデルで、FACTS GroundingのパブリックサブセットのGPT-4oと$pm 5$ ppで一致している。
我々のアプローチは、最小指向の"Exoskeleton Reasoning"足場と、プロトコルコンプライアンスを教える振る舞いの微調整を組み合わせたものです。
論文 参考訳(メタデータ) (2025-10-29T20:12:36Z) - Reinforcement Learning from Adversarial Preferences in Tabular MDPs [62.73758165845971]
我々は,敵対的嗜好を持つエピソードマルコフ決定プロセス(MDP)の新たな枠組みを導入する。
PbMDP では、標準的なエピソード MDP とは異なり、学習者は2つの候補アーム間の好みを観察する。
我々は、既知遷移の下で、T2/3$という残差境界を達成するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2025-07-15T20:19:32Z) - Entropic Risk Optimization in Discounted MDPs: Sample Complexity Bounds with a Generative Model [2.4145441422386464]
有限割引決定過程において、最適状態-作用値関数$Q*$と最適ポリシー$pi*$を学習する際のサンプル複雑度を解析する。
我々は、モデルに基づくリスクに敏感な$Q$-value-iteration (MB-RS-QVI) と呼ばれる単純なモデルベースアプローチを提案し、分析する。
論文 参考訳(メタデータ) (2025-05-30T22:27:57Z) - Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - Distributed Optimization with Feasible Set Privacy [35.16231062731263]
2つのエージェントは、実行可能なセットを$mathcalP1$と$mathcalP1$を互いにプライベートに保ちながら、最適なソリューションセットを学ぶ。
エージェントの1つが$mathcalP$をプライベートにチェックする、シーケンシャルなプライベート情報検索(SPIR)フレームワークを採用しています。
SPIR-based private set intersection (PSI) プロトコルで実現可能な$mathcalP1$をプライベートに取得するのに対し、最適な方法を見つけるには、情報漏洩が少なく、ダウンロードも少ないため、我々の手法の方が優れていることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:45:04Z) - Near Sample-Optimal Reduction-based Policy Learning for Average Reward
MDP [58.13930707612128]
この研究は、平均報酬マルコフ決定過程(AMDP)における$varepsilon$-Optimal Policyを得る際のサンプルの複雑さを考察する。
我々は、状態-作用対当たりの$widetilde O(H varepsilon-3 ln frac1delta)$サンプルを証明し、$H := sp(h*)$は任意の最適ポリシーのバイアスのスパンであり、$varepsilon$は精度、$delta$は失敗確率である。
論文 参考訳(メタデータ) (2022-12-01T15:57:58Z) - PAC Verification of Statistical Algorithms [0.10878040851637999]
本研究では,PAC学習目標を満たす仮説(機械学習モデル)を対話的証明を用いて検証する,PAC検証の設定を開発する。
我々は、$mathbbR$を超える間隔の和のPAC検証のためのプロトコルを提案し、そのタスクの提案したプロトコルを改善し、より低い境界の$d$への依存と一致させる。
最終結果は,クエリの制約を満たす統計的アルゴリズムの検証のためのプロトコルである。
論文 参考訳(メタデータ) (2022-11-28T23:57:27Z) - Stochastic Shortest Path: Minimax, Parameter-Free and Towards
Horizon-Free Regret [144.6358229217845]
エージェントが目標状態に到達する前に蓄積される期待コストを最小限に抑えるために,最短経路(ssp)設定で学習する問題について検討する。
我々は,経験的遷移を慎重に歪曲し,探索ボーナスで経験的コストを摂動する新しいモデルベースアルゴリズムEB-SSPを設計する。
私達はEB-SSPが$widetildeO(B_star sqrtS A K)$のミニマックスの後悔率を達成することを証明します。
論文 参考訳(メタデータ) (2021-04-22T17:20:48Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。