論文の概要: GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2511.14045v1
- Date: Tue, 18 Nov 2025 01:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.876408
- Title: GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards
- Title(参考訳): GRPOのプライバシーが危険にさらされている - 検証可能なリワードによる強化学習に対するメンバーシップ推論攻撃
- Authors: Yule Liu, Heyi Zhang, Jinyi Zheng, Zhen Sun, Zifan Peng, Tianshuo Cong, Yilong Yang, Xinlei He, Zhuo Ma,
- Abstract要約: Divergence-in-Behavior Attack (DIBA)は、Reinforcement Learning with Verifiable Rewards用に特別に設計された最初のメンバーシップ推論フレームワークである。
以上の結果から,DIBAは既存のベースラインを大きく上回り,約0.8AUC,高次TPR@0.1%FPRを達成した。
これは、RLVRにおけるプライバシーの脆弱性を体系的に分析する最初の研究であり、データ露出のトレーニングが行動トレースを通じて確実に推測できることを明らかにする。
- 参考スコア(独自算出の注目度): 13.369116707284121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership inference attacks (MIAs) on large language models (LLMs) pose significant privacy risks across various stages of model training. Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) have brought a profound paradigm shift in LLM training, particularly for complex reasoning tasks. However, the on-policy nature of RLVR introduces a unique privacy leakage pattern: since training relies on self-generated responses without fixed ground-truth outputs, membership inference must now determine whether a given prompt (independent of any specific response) is used during fine-tuning. This creates a threat where leakage arises not from answer memorization. To audit this novel privacy risk, we propose Divergence-in-Behavior Attack (DIBA), the first membership inference framework specifically designed for RLVR. DIBA shifts the focus from memorization to behavioral change, leveraging measurable shifts in model behavior across two axes: advantage-side improvement (e.g., correctness gain) and logit-side divergence (e.g., policy drift). Through comprehensive evaluations, we demonstrate that DIBA significantly outperforms existing baselines, achieving around 0.8 AUC and an order-of-magnitude higher TPR@0.1%FPR. We validate DIBA's superiority across multiple settings--including in-distribution, cross-dataset, cross-algorithm, black-box scenarios, and extensions to vision-language models. Furthermore, our attack remains robust under moderate defensive measures. To the best of our knowledge, this is the first work to systematically analyze privacy vulnerabilities in RLVR, revealing that even in the absence of explicit supervision, training data exposure can be reliably inferred through behavioral traces.
- Abstract(参考訳): 大規模言語モデル(LLM)におけるメンバーシップ推論攻撃(MIA)は、モデルトレーニングの様々な段階において重大なプライバシーリスクを引き起こす。
RLVR(Reinforcement Learning with Verifiable Rewards)の最近の進歩は、特に複雑な推論タスクにおいて、LLMトレーニングにおいて大きなパラダイムシフトをもたらしている。
しかし、RLVRの政治上の性質は、ユニークなプライバシー漏洩パターンを導入している: トレーニングは、固定された地味な出力を伴わない自己生成応答に依存しているため、会員推論は、微調整中に与えられたプロンプト(特定の応答に依存しない)が使用されるかどうかを判断する必要がある。
これにより、解答の暗記から漏れが生じないという脅威が生じる。
本稿では、この新たなプライバシーリスクを評価するために、RLVR用に特別に設計された最初のメンバーシップ推論フレームワークであるDIBA(Diversergence-in-Behavior Attack)を提案する。
DIBAは記憶から行動の変化へと焦点をシフトし、2つの軸にまたがるモデル行動の計測可能なシフトを活用します。
総合評価により,DIBAは既存のベースラインを著しく上回り,約0.8AUC,高次TPR@0.1%FPRを達成した。
本研究では,複数設定におけるDIBAの優位性 - 分布内分布,クロスデータセット,クロスアルゴリズム,ブラックボックスシナリオ,ビジョン言語モデルの拡張など - を検証する。
さらに、中程度の防御策の下では、我々の攻撃は引き続き堅固である。
我々の知る限りでは、これはRLVRにおけるプライバシーの脆弱性を体系的に分析する最初の試みであり、明示的な監督がなくても、データ露出のトレーニングは行動トレースを通じて確実に推測可能であることを明らかにしている。
関連論文リスト
- Beyond Reasoning Gains: Mitigating General Capabilities Forgetting in Large Reasoning Models [33.214586668992965]
検証可能な報酬(RLVR)による強化学習は、数学的およびマルチモーダル推論において驚くべき成果を上げている。
汎用知識のための動的客観的リウェイトを用いたRECAP-aリプレイ戦略を提案する。
本手法はエンド・ツー・エンドであり,既存のRLVRパイプラインに適用可能である。
論文 参考訳(メタデータ) (2025-10-24T19:08:48Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - How Spurious Features Are Memorized: Precise Analysis for Random and NTK Features [19.261178173399784]
学習課題とは無関係な突発的な特徴について考察する。
それらがどのように2つの異なる用語で記憶されるのかを正確に評価する。
一般化能力の増大に伴い,突発的特徴の記憶が弱まることを示す。
論文 参考訳(メタデータ) (2023-05-20T05:27:41Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。