論文の概要: Beyond Indistinguishability: Measuring Extraction Risk in LLM APIs
- arxiv url: http://arxiv.org/abs/2604.18697v1
- Date: Mon, 20 Apr 2026 18:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.400502
- Title: Beyond Indistinguishability: Measuring Extraction Risk in LLM APIs
- Title(参考訳): 識別不可能性を超えて - LLM APIにおける抽出リスクの測定
- Authors: Ruixuan Liu, David Evans, Li Xiong,
- Abstract要約: LLM APIにおけるデータ抽出の防止には,識別不可能性が十分でなく,必要もないことを示す。
我々は、抽出と識別不可能性に基づくプライバシ間のプライバシゲーム分離を形式化する。
モデルトレーニング、APIアクセス、デコード構成を横断する実行可能な緩和ガイドラインを提供します。
- 参考スコア(独自算出の注目度): 12.914333266854102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Indistinguishability properties such as differential privacy bounds or low empirically measured membership inference are widely treated as proxies to show a model is sufficiently protected against broader memorization risks. However, we show that indistinguishability properties are neither sufficient nor necessary for preventing data extraction in LLM APIs. We formalize a privacy-game separation between extraction and indistinguishability-based privacy, showing that indistinguishability and inextractability are incomparable: upper-bounding distinguishability does not upper-bound extractability. To address this gap, we introduce $(l, b)$-inextractability as a definition that requires at least $2^b$ expected queries for any black-box adversary to induce the LLM API to emit a protected $l$-gram substring. We instantiate this via a worst-case extraction game and derive a rank-based extraction risk upper bound for targeted exact extraction, as well as extensions to cover untargeted and approximate extraction. The resulting estimator captures the extraction risk over multiple attack trials and prefix adaptations. We show that it can provide a tight and efficient estimation for standard greedy extraction and an upper bound on the probabilistic extraction risk given any decoding configuration. We empirically evaluate extractability across different models, clarifying its connection to distinguishability, demonstrating its advantage over existing extraction risk estimators, and providing actionable mitigation guidelines across model training, API access, and decoding configurations in LLM API deployment. Our code is publicly available at: https://github.com/Emory-AIMS/Inextractability.
- Abstract(参考訳): 差分プライバシー境界や低経験的メンバーシップ推定などの識別不可能性は、モデルがより広範な記憶リスクに対して十分に保護されていることを示すプロキシとして広く扱われる。
しかし, LLM APIにおけるデータ抽出の防止には, 識別不可能性が十分でなく, 必要もないことを示す。
抽出性と識別不能性に基づくプライバシゲーム分離を形式化し、識別不能性と抽出不能性が相容れないことを示す。
このギャップに対処するために、保護された$l$-gramサブストリングを出力するためにLLM APIを誘導するために、ブラックボックスの敵に対して少なくとも2^b$のクエリを必要とする定義として$(l, b)$-inextractabilityを導入します。
我々は、最悪のケース抽出ゲームを介してこれをインスタンス化し、ターゲットとした正確な抽出のためにランクベースの抽出リスク上限を導出する。
得られた推定器は、複数の攻撃試験およびプレフィックス適応に対する抽出リスクをキャプチャする。
復号化構成が与えられた場合, 標準グリーディ抽出と確率的抽出リスクの上限に対して, 厳密かつ効率的に推定できることを示す。
我々は、異なるモデル間の抽出可能性を評価し、識別可能性との関係を明確にし、既存の抽出リスク推定器よりも有利であることを示し、LLM APIデプロイメントにおけるモデルトレーニング、APIアクセス、デコード構成の実践可能な緩和ガイドラインを提供する。
私たちのコードは、https://github.com/Emory-AIMS/Inextractability.comで公開されています。
関連論文リスト
- $k$NNProxy: Efficient Training-Free Proxy Alignment for Black-Box Zero-Shot LLM-Generated Text Detection [19.213077720525696]
既存のLGT検出器は、学習ベースのアプローチとゼロショットメソッドの2つの幅広いクラスに分類される。
ゼロショット法の信頼性は、オフザシェルフプロキシLDMがしばしば未知のソースとよく一致しているという仮定に依存している。
トレーニング不要でクエリ効率のよいプロキシアライメントフレームワークである$k$-nearest neighbor proxy(k$NN Proxy)を提案する。
論文 参考訳(メタデータ) (2026-04-02T13:11:06Z) - Estimating near-verbatim extraction risk in language models with decoding-constrained beam search [66.14049361268074]
グリーディ復号法は,シーケンス間の抽出リスクの変化を見逃していることを示す。
本稿では,デコード制約されたビームサーチを導入し,近赤外抽出リスクに対する決定論的下限を導出する。
論文 参考訳(メタデータ) (2026-03-26T01:15:16Z) - Anchored Decoding: Provably Reducing Copyright Risk for Any Language Model [99.16364381244445]
現代の言語モデル(LM)は、トレーニングデータの一部を記憶し、動詞のスパンを出力する傾向がある。
提案するAnchored Decodingは,動詞の模倣を抑えるためのプラグアンドプレイ推論時間法である。
本手法は,著作権リスクとユーティリティの長期評価において,6組のモデルペアで評価する。
論文 参考訳(メタデータ) (2026-02-06T19:00:14Z) - SafePassage: High-Fidelity Information Extraction with Black Box LLMs [6.5404806332891114]
ブラックボックスの大規模言語モデル(LLM)は、情報抽出(IE)を簡単に構成できるが、信頼しにくい。
本稿では, LLM が生成したコンテキストを文書に格納し, 抽出した情報と整合する「安全な通路」の概念を紹介する。
これら3つの部品を併用することにより、幻覚を最大85%減らし、非幻覚をフラグ付けするリスクを最小限に抑える。
論文 参考訳(メタデータ) (2025-09-30T20:56:17Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - Measuring memorization in language models via probabilistic extraction [29.438509661725117]
大規模言語モデル(LLM)は、トレーニングデータを記憶する可能性がある。
発見可能な抽出は、この問題を測定する最も一般的な方法である。
確率的探索可能な抽出を導入し、追加コストなしで複数のクエリを考慮し、発見可能な抽出を緩和する。
論文 参考訳(メタデータ) (2024-10-25T11:37:04Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By That? [60.50127555651554]
大規模言語モデル(LLM)は、多くの実用的なアプリケーションにおいて印象的な結果を示すが、基本的な安全性機能は欠如している。
これにより、間接的なプロンプトインジェクションのような操作に脆弱になり、一般に安全クリティカルなタスクには適さない。
モデル出力から計算可能な命令データ分離の形式的尺度と経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。