論文の概要: Window-based Membership Inference Attacks Against Fine-tuned Large Language Models
- arxiv url: http://arxiv.org/abs/2601.02751v1
- Date: Tue, 06 Jan 2026 06:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.831067
- Title: Window-based Membership Inference Attacks Against Fine-tuned Large Language Models
- Title(参考訳): 微調整された大言語モデルに対するウィンドウベースメンバーシップ推論攻撃
- Authors: Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li,
- Abstract要約: 我々はWBC(Window-Based Comparison)を導入し,この知見を手話に基づくアグリゲーションを用いたスライディングウインドウアプローチにより活用する。
提案手法では,テキストシーケンス毎に異なるサイズのウィンドウをスライドし,各ウィンドウがメンバシップにバイナリ投票を行う。
幾何学的に空間化されたウィンドウサイズで票をアンサンブルすることで、トークンレベルのアーティファクトからフレーズレベルの構造への記憶パターンをキャプチャする。
- 参考スコア(独自算出の注目度): 15.409521894842513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most membership inference attacks (MIAs) against Large Language Models (LLMs) rely on global signals, like average loss, to identify training data. This approach, however, dilutes the subtle, localized signals of memorization, reducing attack effectiveness. We challenge this global-averaging paradigm, positing that membership signals are more pronounced within localized contexts. We introduce WBC (Window-Based Comparison), which exploits this insight through a sliding window approach with sign-based aggregation. Our method slides windows of varying sizes across text sequences, with each window casting a binary vote on membership based on loss comparisons between target and reference models. By ensembling votes across geometrically spaced window sizes, we capture memorization patterns from token-level artifacts to phrase-level structures. Extensive experiments across eleven datasets demonstrate that WBC substantially outperforms established baselines, achieving higher AUC scores and 2-3 times improvements in detection rates at low false positive thresholds. Our findings reveal that aggregating localized evidence is fundamentally more effective than global averaging, exposing critical privacy vulnerabilities in fine-tuned LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)に対するほとんどのメンバシップ推論攻撃(MIA)は、トレーニングデータを特定するために、平均損失のようなグローバル信号に依存している。
しかし、このアプローチは微妙で局所的な記憶のシグナルを希釈し、攻撃効率を低下させる。
我々はこのグローバル・アベイラビリティー・パラダイムに挑戦し、メンバーシップ信号が局所的な文脈でより顕著であることを示す。
我々はWBC(Window-Based Comparison)を導入し,この知見を手話に基づくアグリゲーションを用いたスライディングウインドウアプローチにより活用する。
提案手法はテキスト列ごとに異なるサイズのウィンドウをスライドし,各ウィンドウがターゲットモデルと参照モデルとの損失比較に基づいて,メンバシップにバイナリ投票を行う。
幾何学的に空間化されたウィンドウサイズで票をアンサンブルすることで、トークンレベルのアーティファクトからフレーズレベルの構造への記憶パターンをキャプチャする。
11のデータセットにわたる大規模な実験により、WBCは確立されたベースラインを大幅に上回り、AUCスコアが向上し、偽陽性閾値の低い検出レートが2~3倍改善された。
その結果,局所的な証拠の収集は,世界平均よりも根本的に効果的であり,微調整LDMの重大なプライバシー上の脆弱性が露呈していることがわかった。
関連論文リスト
- Data-Efficient American Sign Language Recognition via Few-Shot Prototypical Networks [0.0]
孤立手話認識は、難聴者と難聴者(DHH)コミュニティと聴覚世界との間のコミュニケーションギャップを埋めるために重要である。
骨格型エンコーダに適応したFew-Shot Prototypeal Networkフレームワークを提案する。
提案手法は,記号が動的クラスプロトタイプに近接して分類される意味的距離空間の学習に,韻律的学習を利用する。
論文 参考訳(メタデータ) (2025-12-11T11:50:03Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - ResCLIP: Residual Attention for Training-free Dense Vision-language Inference [27.551367463011008]
CLIPの非最終層における自己注意の相互相関も局在特性を示す。
本稿では, 中間層からの相互相関自己アテンションを利用して, 最終ブロックの注意を再認識するResidual Cross-correlation Self-attention (RCS) モジュールを提案する。
RCSモジュールは空間情報を効果的に再構成し、高密度視覚言語推論のためのCLIP内の局在電位を解放する。
論文 参考訳(メタデータ) (2024-11-24T14:14:14Z) - ReCaLL: Membership Inference via Relative Conditional Log-Likelihoods [56.073335779595475]
本稿ではReCaLL(Relative Conditional Log-Likelihood)を提案する。
実験の結果,非メンバープレフィックスの条件付きメンバーデータは,非メンバーデータと比較してログライクな傾向が著しく低下することがわかった。
我々は総合的な実験を行い、ReCaLLがWikiMIAデータセット上で最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-06-23T00:23:13Z) - Beyond Gradient and Priors in Privacy Attacks: Leveraging Pooler Layer Inputs of Language Models in Federated Learning [24.059033969435973]
本稿では,現代言語モデルのアーキテクチャの脆弱性を狙う2段階のプライバシ攻撃戦略を提案する。
比較実験は、様々なデータセットやシナリオで優れた攻撃性能を示す。
私たちは、大きな言語モデルの設計において、これらの潜在的なプライバシーリスクを認識し、対処するようコミュニティに呼びかけます。
論文 参考訳(メタデータ) (2023-12-10T01:19:59Z) - Region-centric Image-Language Pretraining for Open-Vocabulary Detection [39.17829005627821]
領域中心の画像言語事前学習に基づく新しいオープン語彙検出手法を提案する。
プレトレーニング段階では,分類バックボーン上に検出器アーキテクチャを組み込む。
我々のアプローチは、創発的なオブジェクト・セマンティックな手がかりを学習するための、対照的な学習方法の単純かつ効果的な拡張である。
論文 参考訳(メタデータ) (2023-09-29T21:56:37Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。