論文の概要: SCOPE: Intrinsic Semantic Space Control for Mitigating Copyright Infringement in LLMs
- arxiv url: http://arxiv.org/abs/2511.07001v1
- Date: Mon, 10 Nov 2025 11:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.221369
- Title: SCOPE: Intrinsic Semantic Space Control for Mitigating Copyright Infringement in LLMs
- Title(参考訳): SCOPE:LLMにおける著作権侵害を緩和するための本質的な意味空間制御
- Authors: Zhenliang Zhang, Xinyu Hu, Xiaojun Wan,
- Abstract要約: SCOPEはパラメータ更新や補助フィルタを必要としない推論時間法である。
著作権に敏感なサブスペースを特定し、デコード時にそのアクティベーションを切断する。
広く知られるベンチマークの実験は、SCOPEが汎用性を低下させることなく著作権侵害を軽減していることを示している。
- 参考スコア(独自算出の注目度): 39.14996705577274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models sometimes inadvertently reproduce passages that are copyrighted, exposing downstream applications to legal risk. Most existing studies for inference-time defences focus on surface-level token matching and rely on external blocklists or filters, which add deployment complexity and may overlook semantically paraphrased leakage. In this work, we reframe copyright infringement mitigation as intrinsic semantic-space control and introduce SCOPE, an inference-time method that requires no parameter updates or auxiliary filters. Specifically, the sparse autoencoder (SAE) projects hidden states into a high-dimensional, near-monosemantic space; benefiting from this representation, we identify a copyright-sensitive subspace and clamp its activations during decoding. Experiments on widely recognized benchmarks show that SCOPE mitigates copyright infringement without degrading general utility. Further interpretability analyses confirm that the isolated subspace captures high-level semantics.
- Abstract(参考訳): 大規模な言語モデルは、著作権のあるパスを不注意に再現し、下流のアプリケーションに法的リスクを及ぼすことがある。
推論時防御に関する既存の研究は、表面レベルのトークンマッチングに重点を置いており、外部のブロックリストやフィルタに依存している。
そこで本研究では,パラメータ更新や補助フィルタを必要としない推論時間方式SCOPEを導入することで,著作権侵害の軽減を本質的な意味空間制御として実現する。
具体的には、スパースオートエンコーダ(SAE)は、隠れた状態を高次元のほぼ単調な空間に投影する。
広く知られるベンチマークの実験は、SCOPEが汎用性を低下させることなく著作権侵害を軽減していることを示している。
さらなる解釈可能性分析により、分離された部分空間が高レベルの意味論をキャプチャすることを確認した。
関連論文リスト
- SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - Large Language Models Encode Semantics in Low-Dimensional Linear Subspaces [31.401762286885656]
大規模言語モデル(LLM)の潜在空間幾何を理解することは、それらの振舞いとアライメントの鍵となる。
我々は6つの科学的トピックにわたる11の経験的モデルで大規模な研究を行っている。
論文 参考訳(メタデータ) (2025-07-13T17:03:25Z) - Certified Mitigation of Worst-Case LLM Copyright Infringement [46.571805194176825]
コピーライト・テイクダウン(copyright takedown)とは、著作権のあるものに近いコンテンツをモデルが生成するのを防ぐ手法である。
我々はBloomScrubを提案する。BloomScrubは極めてシンプルで、非常に効果的な推論時間アプローチであり、認証された著作権の削除を提供する。
本研究は,軽量な推論時間手法が著作権保護に驚くほど有効であることを示唆する。
論文 参考訳(メタデータ) (2025-04-22T17:16:53Z) - CopyJudge: Automated Copyright Infringement Identification and Mitigation in Text-to-Image Diffusion Models [58.58208005178676]
我々は,新しい自動侵害識別フレームワークであるCopyJudgeを提案する。
我々は, 抽象フィルタ比較テストフレームワークを用いて, 侵害の可能性を評価する。
インフレクションを自動最適化する汎用LVLM方式の緩和戦略を導入する。
論文 参考訳(メタデータ) (2025-02-21T08:09:07Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。