論文の概要: Membership Inference Attacks for Retrieval Based In-Context Learning for Document Question Answering
- arxiv url: http://arxiv.org/abs/2605.04116v1
- Date: Tue, 05 May 2026 08:19:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.448808
- Title: Membership Inference Attacks for Retrieval Based In-Context Learning for Document Question Answering
- Title(参考訳): 文書質問応答のための検索型インコンテキスト学習のための会員推論攻撃
- Authors: Tejas Kulkarni, Antti Koskela, Laith Zumot,
- Abstract要約: コンテキスト内学習を用いたリモートホストアプリケーションは、メンバシップ推論攻撃に対して脆弱であることを示す。
そこで本稿では,クエリテキストプレフィックスを利用してメンバを非メンバ入力と区別する2つのブラックボックスメンバシップ推論攻撃を提案する。
- 参考スコア(独自算出の注目度): 5.932575574212546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that remotely hosted applications employing in-context learning when augmented with a retrieval function to select in-context examples can be vulnerable to membership-inference attacks even when the service provider and users are separate parties. We propose two black-box membership inference attacks that exploit query text prefixes to distinguish member from non-member inputs. The first attack uses a reference model to estimate an otherwise unavailable loss metric. The second attack improves upon it by eliminating the reference model and instead computing a membership statistic through a simple but novel weighted-averaging scheme. Our comprehensive empirical evaluations consider a stricter case in which the adversary has a paraphrased version of the text in the queries and show that our attacks can exhibit stronger resilience to paraphrasing and outperform three prior attacks in many cases with small number of prefixes. We also adapt an existing ensemble prompting defense to our setting, demonstrating that it substantially mitigates the privacy leakage caused by our second attack.
- Abstract(参考訳): 検索関数を付加してコンテキスト内サンプルを選択すると、サービスプロバイダとユーザが別個のパーティである場合でも、リモートでコンテキスト内学習を利用するアプリケーションが、メンバシップ推論攻撃に対して脆弱であることを示す。
そこで本稿では,クエリテキストプレフィックスを利用してメンバを非メンバ入力と区別する2つのブラックボックスメンバシップ推論攻撃を提案する。
最初の攻撃では、参照モデルを使用して、他の使用不可能な損失メトリックを推定する。
第2の攻撃は、参照モデルを排除し、代わりに単純だが斬新な重み付け方式で会員統計を計算することによって改善される。
包括的経験的評価では、敵がクエリにパラフレーズ付きテキストを持つより厳密なケースを考慮し、この攻撃がパラフレーズ化に対する強いレジリエンスを示し、プレフィックス数が少ないケースでは3つの先行攻撃より優れていることを示す。
我々はまた、既存のアンサンブルに適応して、われわれの設定を守り、これが第2次攻撃によるプライバシー漏洩を著しく軽減することを示した。
関連論文リスト
- Leveraging Soft Prompts for Privacy Attacks in Federated Prompt Tuning [24.914116986408327]
本稿では,フェデレートされたプロンプトチューニングに適したメンバシップ推論攻撃であるPromptMIAを提案する。
PromptMIAは、様々なベンチマークデータセットに対して、このゲームにおいて一貫して高い優位性を発揮することを実証的に示します。
結果は、現在の防衛に対する非自明な課題を強調し、その制限に関する洞察を提供する。
論文 参考訳(メタデータ) (2026-01-10T17:50:05Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - SLMIA-SR: Speaker-Level Membership Inference Attacks against Speaker
Recognition Systems [6.057334150052503]
SLMIA-SRは、話者認識(SR)に適した最初の会員推論攻撃である
私たちの攻撃は万能で、ホワイトボックスとブラックボックスの両方のシナリオで機能します。
論文 参考訳(メタデータ) (2023-09-14T18:40:28Z) - Generalizable Black-Box Adversarial Attack with Meta Learning [54.196613395045595]
ブラックボックス攻撃では、ターゲットモデルのパラメータが不明であり、攻撃者はクエリのフィードバックに基づいて、クエリの予算に基づいて摂動を成功させることを目指している。
本稿では,実例レベルの逆転可能性という,過去の攻撃に対するフィードバック情報を活用することを提案する。
この2種類の逆転送性を持つフレームワークは,市販のクエリベースのアタック手法と自然に組み合わせて性能を向上させることができる。
論文 参考訳(メタデータ) (2023-01-01T07:24:12Z) - Preserving Semantics in Textual Adversarial Attacks [0.0]
敵の攻撃によって生じる敵の事例の最大70%は、意味論を保存していないため破棄されるべきである。
SPE(Semantics-Preserving-Encoder)と呼ばれる新しい完全教師付き文埋め込み手法を提案する。
本手法は, 敵攻撃における既存の文エンコーダよりも1.2倍から5.1倍優れた実攻撃成功率を達成している。
論文 参考訳(メタデータ) (2022-11-08T12:40:07Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Adversarial Text Normalization [2.9434930072968584]
逆テキスト正規化器は、少ない計算オーバーヘッドで攻撃されたコンテンツのベースライン性能を回復する。
テキスト正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供する。
論文 参考訳(メタデータ) (2022-06-08T19:44:03Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z) - Revisiting Membership Inference Under Realistic Assumptions [87.13552321332988]
従来研究でよく用いられていた仮定のいくつかが緩和された環境での会員推定について検討する。
この設定は、研究者が通常考慮するバランスのとれた事前設定よりも現実的である。
我々は、トレーニングセットメンバーに対応する入力が損失関数の局所最小値に近いという直感に基づく新しい推論攻撃を開発する。
論文 参考訳(メタデータ) (2020-05-21T20:17:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。