論文の概要: Improved Bounds for Private and Robust Alignment
- arxiv url: http://arxiv.org/abs/2512.23816v1
- Date: Mon, 29 Dec 2025 19:20:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.183294
- Title: Improved Bounds for Private and Robust Alignment
- Title(参考訳): プライベートアライメントとロバストアライメントのための改善された境界
- Authors: Wenqian Weng, Yi He, Xingyu Zhou,
- Abstract要約: 理論的観点から,言語モデルの私的かつ堅牢なアライメントについて検討する。
プライバシの制約や敵の汚職の対象となる選好ラベルについて検討する。
プライバシのみの設定では、MLEスタイルのアルゴリズムでログの損失がほぼ最適であることを示す。
- 参考スコア(独自算出の注目度): 10.241010106616393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we study the private and robust alignment of language models from a theoretical perspective by establishing upper bounds on the suboptimality gap in both offline and online settings. We consider preference labels subject to privacy constraints and/or adversarial corruption, and analyze two distinct interplays between them: privacy-first and corruption-first. For the privacy-only setting, we show that log loss with an MLE-style algorithm achieves near-optimal rates, in contrast to conventional wisdom. For the joint privacy-and-corruption setting, we first demonstrate that existing offline algorithms in fact provide stronger guarantees -- simultaneously in terms of corruption level and privacy parameters -- than previously known, which further yields improved bounds in the corruption-only regime. In addition, we also present the first set of results for private and robust online alignment. Our results are enabled by new uniform convergence guarantees for log loss and square loss under privacy and corruption, which we believe have broad applicability across learning theory and statistics.
- Abstract(参考訳): 本稿では,オフラインとオンラインの両方の設定における最適度差の上限を設定することによって,理論的観点から言語モデルのプライベートかつロバストなアライメントを考察する。
プライバシ優先と汚職優先という2つの異なる相互作用を,プライバシ優先と汚職優先の2つで分析する。
プライバシのみの設定では、従来の知恵とは対照的に、MLEスタイルのアルゴリズムによるログ損失がほぼ最適であることを示す。
共同のプライバシーと腐敗の状況において、我々は、既存のオフラインアルゴリズムが、汚職レベルとプライバシパラメータの両面から同時に、より強力な保証を提供することを示した。
さらに、プライベートかつロバストなオンラインアライメントのための最初の結果も提示する。
我々の結果は、新たな統一収束保証により、プライバシーと汚職の下でのログ損失と正方形損失が保証され、学習理論と統計学に広く適用可能であると我々は信じている。
関連論文リスト
- Fairness Meets Privacy: Integrating Differential Privacy and Demographic Parity in Multi-class Classification [6.28122931748758]
差分プライバシーは、公平性保証に最小限の影響を与える公平性向上パイプラインに統合可能であることを示す。
我々はDP2DPと呼ばれるポストプロセッシングアルゴリズムを設計し、人口統計と差分プライバシーの両方を強制する。
分析の結果,我々のアルゴリズムは,文献から得られる最良な非私的手法と基本的に同じ割合で,その人口的平等目標に向かって収束していることが判明した。
論文 参考訳(メタデータ) (2025-11-24T08:31:02Z) - Square$χ$PO: Differentially Private and Robust $χ^2$-Preference Optimization in Offline Direct Alignment [12.068124524003563]
Square$chi$PO は $chi$PO への単純な一行変更であり、標準的なログロスは確率よりも新しい二乗損失に置き換えられる。
ラベルプライバシのローカルモデルでは、Square$chi$POは、単一政治の集中度に基づいて最適なレートを達成する最初のアルゴリズムである。
また、Square$chi$POは、一般的な嗜好モデルのシナリオを扱うために容易に拡張できることを示す。
論文 参考訳(メタデータ) (2025-05-27T16:23:24Z) - A Unified Theoretical Analysis of Private and Robust Offline Alignment: from RLHF to DPO [13.183559074319277]
本稿では,オフラインアライメントにおけるノイズラベルの影響を理論的に検討する。
異なるプライバシー破壊シナリオ下では、人間のフィードバックからの強化学習と直接選好最適化の両方を総合的に分析する。
われわれの発見は、プライバシーのみまたは汚職のみのシナリオ下でのオフラインアライメントにおける最先端の理論結果も前進させる。
論文 参考訳(メタデータ) (2025-05-21T16:07:47Z) - Convergent Differential Privacy Analysis for General Federated Learning: the $f$-DP Perspective [57.35402286842029]
フェデレートラーニング(Federated Learning, FL)は、ローカルプライバシを重視した効率的な協調トレーニングパラダイムである。
ディファレンシャルプライバシ(DP)は、私的保護の信頼性を捕捉し、保証するための古典的なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:22:21Z) - Theoretically Principled Federated Learning for Balancing Privacy and
Utility [61.03993520243198]
モデルパラメータを歪ませることでプライバシを保護する保護機構の一般学習フレームワークを提案する。
フェデレートされた学習における各コミュニケーションラウンドにおいて、各クライアント上の各モデルパラメータに対して、パーソナライズされたユーティリティプライバシトレードオフを実現することができる。
論文 参考訳(メタデータ) (2023-05-24T13:44:02Z) - On Differentially Private Federated Linear Contextual Bandits [9.51828574518325]
我々は、差分プライバシーの下で、クロスサイロフェデレーション線形文脈帯域問題(LCB)を考える。
現状の3つの課題は, (i) 主張されたプライバシ保護の失敗, (ii) ノイズの計算ミスによる不正確な後悔,である。
我々は,信頼されたサーバを使わずに,アルゴリズムがほぼ最適であることを示す。
論文 参考訳(メタデータ) (2023-02-27T16:47:49Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - Robustness Threats of Differential Privacy [70.818129585404]
我々は、いくつかの設定で差分プライバシーをトレーニングしたネットワークが、非プライベートバージョンに比べてさらに脆弱であることを実験的に実証した。
本研究では,勾配クリッピングや雑音付加などのニューラルネットワークトレーニングの主成分が,モデルの堅牢性に与える影響について検討する。
論文 参考訳(メタデータ) (2020-12-14T18:59:24Z) - Private Reinforcement Learning with PAC and Regret Guarantees [69.4202374491817]
エピソード強化学習(RL)のためのプライバシー保護探索ポリシーを設計する。
まず、共同微分プライバシー(JDP)の概念を用いた有意義なプライバシー定式化を提供する。
そこで我々は,強いPACと後悔境界を同時に達成し,JDP保証を享受する,プライベートな楽観主義に基づく学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-09-18T20:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。