論文の概要: A Unified Theoretical Analysis of Private and Robust Offline Alignment: from RLHF to DPO
- arxiv url: http://arxiv.org/abs/2505.15694v1
- Date: Wed, 21 May 2025 16:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.765671
- Title: A Unified Theoretical Analysis of Private and Robust Offline Alignment: from RLHF to DPO
- Title(参考訳): プライベートオフラインアライメントとロバストオフラインアライメントの統一理論解析:RLHFからDPOへ
- Authors: Xingyu Zhou, Yulian Wu, Francesco Orabona,
- Abstract要約: 本稿では,オフラインアライメントにおけるノイズラベルの影響を理論的に検討する。
異なるプライバシー破壊シナリオ下では、人間のフィードバックからの強化学習と直接選好最適化の両方を総合的に分析する。
われわれの発見は、プライバシーのみまたは汚職のみのシナリオ下でのオフラインアライメントにおける最先端の理論結果も前進させる。
- 参考スコア(独自算出の注目度): 13.183559074319277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we theoretically investigate the effects of noisy labels in offline alignment, with a focus on the interplay between privacy and robustness against adversarial corruption. Specifically, under linear modeling assumptions, we present a unified analysis covering both reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO) under different privacy-corruption scenarios, such as Local differential privacy-then-Corruption (LTC), where human preference labels are privatized before being corrupted by an adversary, and Corruption-then-Local differential privacy (CTL), where labels are corrupted before privacy protection. Our analysis leverages a reduction framework that reduces the offline alignment problem under linear modeling assumptions to parameter estimation in logistic regression. This framework allows us to establish an interesting separation result between LTC and CTL, demonstrating that LTC presents a greater challenge than CTL in offline alignment, even under linear models. As important by-products, our findings also advance the state-of-the-art theoretical results in offline alignment under privacy-only or corruption-only scenarios.
- Abstract(参考訳): 本稿では, オフラインアライメントにおけるノイズラベルの効果を理論的に検討し, 敵の汚職に対するプライバシーとロバスト性との相互作用に着目した。
具体的には、線形モデリングの前提として、人間からのフィードバックからの強化学習(RLHF)と直接優先最適化(DPO)の両方を、相手に悪用される前にヒトの嗜好ラベルが民営化されるローカル差分プライバシー-破壊(LTC)や、プライバシー保護の前にラベルが破損するCTL(Corruption-then-Local差分プライバシー)といった、異なるプライバシー破壊シナリオ下でカバーする統合分析を行う。
本分析では,線形モデリング仮定の下でのオフラインアライメント問題を,ロジスティック回帰におけるパラメータ推定に還元するフレームワークを利用する。
このフレームワークにより、LCCとCTLの間の興味深い分離結果を確立することができ、線形モデルの下でも、LCCがオフラインアライメントにおいてCTLよりも大きな課題を示すことを示す。
重要な副産物として、私たちの発見は、プライバシのみまたは汚職のみのシナリオ下でのオフラインアライメントにおいて、最先端の理論的結果も前進させます。
関連論文リスト
- How Private is Your Attention? Bridging Privacy with In-Context Learning [4.093582834469802]
In-context Learning (ICL) - 推論時に提供された例から新しいタスクを実行するトランスフォーマーベースモデルの能力。
線形アテンションヘッドのための差分プライベート事前学習アルゴリズムを提案し、線形回帰におけるICLのプライバシ・正確性トレードオフに関する最初の理論的解析を提示する。
論文 参考訳(メタデータ) (2025-04-22T16:05:26Z) - The Last Iterate Advantage: Empirical Auditing and Principled Heuristic Analysis of Differentially Private SGD [46.71175773861434]
ノイズカットされた勾配勾配(DP-SGD)の簡易なプライバシー解析法を提案する。
各種トレーニング手順に適用したプライバシー監査の結果を予測できることを実験的に示す。
既存のプライバシー監査攻撃は、視覚と言語の両方のタスクにおける分析によって制限されていることを実証的に示しています。
論文 参考訳(メタデータ) (2024-10-08T16:51:10Z) - Convergent Differential Privacy Analysis for General Federated Learning: the $f$-DP Perspective [57.35402286842029]
フェデレートラーニング(Federated Learning, FL)は、ローカルプライバシを重視した効率的な協調トレーニングパラダイムである。
ディファレンシャルプライバシ(DP)は、私的保護の信頼性を捕捉し、保証するための古典的なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:22:21Z) - Data Collaboration Analysis with Orthonormal Basis Selection and Alignment [2.928964540437144]
基本選択とアライメントフェーズの間に正規正規制約を強制する新しいフレームワークである textbf Orthonormal DC (ODC) を提案する。
任意のターゲットベースを許容する従来のDCとは異なり、ODCはターゲットを正規の正規ベースに制限し、モデルパフォーマンスに関する特定のベースの選択を無視する。
論文 参考訳(メタデータ) (2024-03-05T08:52:16Z) - Towards Robust Model-Based Reinforcement Learning Against Adversarial Corruption [60.958746600254884]
本研究は、モデルベース強化学習(RL)における敵対的腐敗の課題に取り組む。
本稿では,MLE に対する不確実性重みとして全変量 (TV) に基づく情報比を利用する,汚損楽観的 MLE (CR-OMLE) アルゴリズムを提案する。
我々は、重み付け手法をオフライン設定にまで拡張し、汚損性悲観的MLE (CR-PMLE) というアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T07:27:30Z) - Initialization Matters: Privacy-Utility Analysis of Overparameterized
Neural Networks [72.51255282371805]
我々は、最悪の近傍データセット上でのモデル分布間のKLばらつきのプライバシー境界を証明した。
このKLプライバシー境界は、トレーニング中にモデルパラメータに対して期待される2乗勾配ノルムによって決定される。
論文 参考訳(メタデータ) (2023-10-31T16:13:22Z) - Breaking the Communication-Privacy-Accuracy Tradeoff with
$f$-Differential Privacy [51.11280118806893]
サーバが複数のユーザの協調的なデータ分析を,プライバシの懸念と限られた通信能力で調整する,フェデレートされたデータ分析問題を考える。
有限出力空間を有する離散値機構の局所的差分プライバシー保証を$f$-differential privacy (DP) レンズを用いて検討する。
より具体的には、様々な離散的評価機構の厳密な$f$-DP保証を導出することにより、既存の文献を前進させる。
論文 参考訳(メタデータ) (2023-02-19T16:58:53Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。