論文の概要: On the Evidentiary Limits of Membership Inference for Copyright Auditing
- arxiv url: http://arxiv.org/abs/2601.12937v1
- Date: Mon, 19 Jan 2026 10:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.867865
- Title: On the Evidentiary Limits of Membership Inference for Copyright Auditing
- Title(参考訳): 著作権監査における会員推定の証拠的限界について
- Authors: Murat Bilgehan Ertan, Emirhan Böge, Min Chen, Kaleel Mahmood, Marten van Dijk,
- Abstract要約: 我々は、会員推論攻撃(MIA)が、敵対的著作権紛争において許容できる証拠となるかどうかを問う。
SAGEは,Sparse Autoencoders (SAEs) が指導するパラフレーズフレームワークで,語彙構造を変更するためにトレーニングデータを書き換える。
実験により、SAGE生成パラフレーズでモデルが微調整された場合、最先端のMIAは劣化し、それらの信号がセマンティクス保存変換に対して堅牢でないことが示された。
- 参考スコア(独自算出の注目度): 8.81439045962811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) are trained on increasingly opaque corpora, membership inference attacks (MIAs) have been proposed to audit whether copyrighted texts were used during training, despite growing concerns about their reliability under realistic conditions. We ask whether MIAs can serve as admissible evidence in adversarial copyright disputes where an accused model developer may obfuscate training data while preserving semantic content, and formalize this setting through a judge-prosecutor-accused communication protocol. To test robustness under this protocol, we introduce SAGE (Structure-Aware SAE-Guided Extraction), a paraphrasing framework guided by Sparse Autoencoders (SAEs) that rewrites training data to alter lexical structure while preserving semantic content and downstream utility. Our experiments show that state-of-the-art MIAs degrade when models are fine-tuned on SAGE-generated paraphrases, indicating that their signals are not robust to semantics-preserving transformations. While some leakage remains in certain fine-tuning regimes, these results suggest that MIAs are brittle in adversarial settings and insufficient, on their own, as a standalone mechanism for copyright auditing of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)はますます不透明なコーパスで訓練されているため、リアルな条件下での信頼性の懸念が高まりつつも、トレーニング中に著作権付きテキストが使用されているかどうかを確認するために、MIA(メンバシップ推論攻撃)が提案されている。
訴追されたモデル開発者が、セマンティックコンテンツを保持しながらトレーニングデータを難読化して、裁判官が告発する通信プロトコルを通じて、この設定を形式化することができるような、敵対的著作権紛争において、MIAが許容可能な証拠として機能するかどうかを問う。
SAGE(Structure-Aware SAE-Guided extract)は,Sparse Autoencoders (SAEs) が指導する言い回しフレームワークである。
実験の結果,SAGE生成パラフレーズ上でモデルが微調整された場合のMIAの劣化は,その信号が意味論的保存変換に対して堅牢でないことを示す。
いくつかの漏洩は特定の微調整体制に残っているが、これらの結果は、MIAは敵の設定が不安定であり、単独でLLMの著作権監査のためのスタンドアロンのメカニズムとして不十分であることを示唆している。
関連論文リスト
- Refinement Provenance Inference: Detecting LLM-Refined Training Prompts from Model Behavior [58.751981587234916]
本稿では,Refinement Provenance Inference (RPI)監査タスクをRefinement Provenance Inference (RPI)として定式化する。
本稿では,ロジットレベルの信号で教師が強制する可能性機能を融合させるロジットベースのフレームワークであるReProを提案する。
トレーニング中、ReProはシャドウファインチューニングを通じて転送可能な表現を学び、訓練データアクセスなしで、見えない犠牲者の証明を推測するために軽量のリニアヘッドを使用する。
論文 参考訳(メタデータ) (2026-01-05T10:16:41Z) - SCOPE: Intrinsic Semantic Space Control for Mitigating Copyright Infringement in LLMs [39.14996705577274]
SCOPEはパラメータ更新や補助フィルタを必要としない推論時間法である。
著作権に敏感なサブスペースを特定し、デコード時にそのアクティベーションを切断する。
広く知られるベンチマークの実験は、SCOPEが汎用性を低下させることなく著作権侵害を軽減していることを示している。
論文 参考訳(メタデータ) (2025-11-10T11:53:07Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - ISACL: Internal State Analyzer for Copyrighted Training Data Leakage [28.435965753598875]
LLM(Large Language Models)は、著作権またはプロプライエタリなデータを不注意に公開するリスクを生じさせる。
本研究は, LLMの内部状態をテキスト生成前に検討し, 潜在的な漏洩を検出する, 積極的なアプローチを提案する。
Retrieval-Augmented Generation (RAG)システムと統合されたこのフレームワークは、著作権とライセンス要件の遵守を保証する。
論文 参考訳(メタデータ) (2025-08-25T08:04:20Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - Can Watermarking Large Language Models Prevent Copyrighted Text Generation and Hide Training Data? [62.72729485995075]
著作権文書の生成に対する抑止剤としての透かしの有効性について検討する。
我々は、透かしがメンバーシップ推論攻撃(MIA)の成功率に悪影響を及ぼすことを発見した。
透かしにおける最近のMIAの成功率を改善するための適応的手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T16:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。