論文の概要: Membership Inference on LLMs in the Wild
- arxiv url: http://arxiv.org/abs/2601.11314v1
- Date: Fri, 16 Jan 2026 14:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.516194
- Title: Membership Inference on LLMs in the Wild
- Title(参考訳): 野生におけるLDMの会員推論
- Authors: Jiatong Yi, Yanyang Li,
- Abstract要約: 大規模言語モデル(LLM)の不透明なトレーニングデータのための重要な監査ツールとして、MIA(Community Inference Attacks)が機能する。
我々は,このテキストのみのシステムに適した頑健なMIAフレームワークであるSimMIAを提案する。
WikiMIA-25は、現代のLLM上でのMIA性能を評価するための新しいベンチマークである。
- 参考スコア(独自算出の注目度): 7.333405847597631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Membership Inference Attacks (MIAs) act as a crucial auditing tool for the opaque training data of Large Language Models (LLMs). However, existing techniques predominantly rely on inaccessible model internals (e.g., logits) or suffer from poor generalization across domains in strict black-box settings where only generated text is available. In this work, we propose SimMIA, a robust MIA framework tailored for this text-only regime by leveraging an advanced sampling strategy and scoring mechanism. Furthermore, we present WikiMIA-25, a new benchmark curated to evaluate MIA performance on modern proprietary LLMs. Experiments demonstrate that SimMIA achieves state-of-the-art results in the black-box setting, rivaling baselines that exploit internal model information.
- Abstract(参考訳): 会員推論攻撃(MIA)は,大規模言語モデル(LLM)の不透明なトレーニングデータに対する重要な監査ツールとして機能する。
しかし、既存の技術は主にアクセス不能なモデル内部(例:ロジット)に依存しているか、あるいは生成されたテキストしか利用できない厳格なブラックボックス設定でドメイン間の一般化に苦しむ。
そこで本研究では,より進んだサンプリング戦略とスコアリング機構を活用することで,テキストのみに適合する堅牢なMIAフレームワークであるSimMIAを提案する。
さらに,現代のLLM上でのMIA性能を評価するためのベンチマークであるWikiMIA-25を提案する。
実験により、SimMIAは内部モデル情報を利用するベースラインに匹敵するブラックボックス設定において最先端の結果を達成することが示された。
関連論文リスト
- In-Context Probing for Membership Inference in Fine-Tuned Language Models [14.590625376049955]
メンバーシップ推論攻撃(MIA)は、微調整された大規模言語モデル(LLM)に重大なプライバシー上の脅威をもたらす
トレーニング力学の理論に基づく新しいMIAフレームワークであるICP-MIAを提案する。
ICP-MIAは、特に偽陽性率の低い場合、以前のブラックボックスMIAよりも著しく優れていた。
論文 参考訳(メタデータ) (2025-12-18T08:26:26Z) - Lost in Modality: Evaluating the Effectiveness of Text-Based Membership Inference Attacks on Large Multimodal Models [3.9448289587779404]
大規模言語モデル(LLM)におけるデータ露出の評価手法として,ログベースメンバシップ推論攻撃(MIA)が広く採用されている。
テキストベースのMIA手法をマルチモーダル設定に拡張する最初の包括的な評価を行う。
論文 参考訳(メタデータ) (2025-12-02T14:11:51Z) - OpenLVLM-MIA: A Controlled Benchmark Revealing the Limits of Membership Inference Attacks on Large Vision-Language Models [8.88331104584743]
OpenLVLM-MIAは,大規模視覚言語モデル(LVLM)に対するメンバシップ推論攻撃(MIA)の評価において,基本的な課題を強調した新しいベンチマークである。
我々は, メンバーと非メンバーの分布を慎重にバランスさせ, 3つの異なるトレーニング段階にまたがって, 基幹メンバーシップラベルを提供する, 6000枚の画像の制御ベンチマークを導入する。
OpenLVLM-MIAを用いた実験では、最先端MIA法の性能は不偏条件下でランダムな確率に収束した。
論文 参考訳(メタデータ) (2025-10-18T01:39:28Z) - On the Evolution of Federated Post-Training Large Language Models: A Model Accessibility View [82.19096285469115]
Federated Learning (FL)は、クライアントデータのプライバシを保持しながら、分散データサイロをまたいだトレーニングモデルを可能にする。
近年,FL内での大規模言語モデル (LLM) の学習を効率化し,計算・通信の課題に対処する手法が研究されている。
これらの制限に対処するために、推論のみのパラダイム(ブラックボックスのFedLLM)が登場した。
論文 参考訳(メタデータ) (2025-08-22T09:52:31Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。
EM-MIAはWikiMIAで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。