論文の概要: SoK: Large Language Model Copyright Auditing via Fingerprinting
- arxiv url: http://arxiv.org/abs/2508.19843v1
- Date: Wed, 27 Aug 2025 12:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.63234
- Title: SoK: Large Language Model Copyright Auditing via Fingerprinting
- Title(参考訳): SoK:フィンガープリントによる大規模言語モデル著作権監査
- Authors: Shuo Shao, Yiming Li, Yu He, Hongwei Yao, Wenyuan Yang, Dacheng Tao, Zhan Qin,
- Abstract要約: 既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
- 参考スコア(独自算出の注目度): 69.14570598973195
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The broad capabilities and substantial resources required to train Large Language Models (LLMs) make them valuable intellectual property, yet they remain vulnerable to copyright infringement, such as unauthorized use and model theft. LLM fingerprinting, a non-intrusive technique that extracts and compares the distinctive features from LLMs to identify infringements, offers a promising solution to copyright auditing. However, its reliability remains uncertain due to the prevalence of diverse model modifications and the lack of standardized evaluation. In this SoK, we present the first comprehensive study of LLM fingerprinting. We introduce a unified framework and formal taxonomy that categorizes existing methods into white-box and black-box approaches, providing a structured overview of the state of the art. We further propose LeaFBench, the first systematic benchmark for evaluating LLM fingerprinting under realistic deployment scenarios. Built upon mainstream foundation models and comprising 149 distinct model instances, LeaFBench integrates 13 representative post-development techniques, spanning both parameter-altering methods (e.g., fine-tuning, quantization) and parameter-independent mechanisms (e.g., system prompts, RAG). Extensive experiments on LeaFBench reveal the strengths and weaknesses of existing methods, thereby outlining future research directions and critical open problems in this emerging field. The code is available at https://github.com/shaoshuo-ss/LeaFBench.
- Abstract(参考訳): LLM(Large Language Models)の訓練に必要な幅広い能力と実質的なリソースは、それらに価値ある知的財産を与えるが、無許可の使用やモデル盗難のような著作権侵害に弱いままである。
LLMフィンガープリンティング(LLM fingerprinting)は、LLMから特徴的な特徴を抽出し、比較して侵害を特定する非侵入的手法であり、著作権監査に対する有望な解決策を提供する。
しかし、モデル修正の多様さと標準化された評価の欠如により、信頼性は依然として不明である。
本稿では,LDMフィンガープリントの総合的研究について紹介する。
我々は,既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式分類を導入し,最先端技術の概要を構造化した。
さらに,現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
LeaFBenchはメインストリームの基盤モデルに基づいて構築され、129の異なるモデルインスタンスで構成され、13の代表的なポスト開発テクニックを統合し、パラメータ調整手法(例えば、微調整、量子化)とパラメータ非依存メカニズム(例えば、システムプロンプト、RAG)の両方にまたがる。
LeaFBenchに関する大規模な実験は、既存の手法の長所と短所を明らかにし、今後の研究の方向性と、この新興分野における重要なオープンな問題を概説する。
コードはhttps://github.com/shaoshuo-ss/LeaFBench.comで入手できる。
関連論文リスト
- Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [54.70676039314542]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。
異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。
我々は、最先端のPTQ手法を実装し、複数のタスクタイプとモデル変種を包括的に評価する。
論文 参考訳(メタデータ) (2025-08-20T17:59:51Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - SoK: Dataset Copyright Auditing in Machine Learning Systems [23.00196984807359]
本稿では,現在のデータセット著作権監査ツールについて検討し,その有効性と限界について検討する。
本稿では,データセットによる著作権監査研究を,侵入的手法と非侵入的手法の2つに分類する。
結果の要約として、現在の文献における詳細な参照テーブル、キーポイントのハイライト、未解決問題について紹介する。
論文 参考訳(メタデータ) (2024-10-22T02:06:38Z) - A Fingerprint for Large Language Models [10.63985246068255]
大規模言語モデル(LLM)のための新しいブラックボックスフィンガープリント手法を提案する。
実験結果から,提案手法はPEFT攻撃に対するオーナシップ検証とロバスト性において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-01T12:25:42Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models [18.46904928949022]
大規模言語モデル(LLM)のためのブラックボックス指紋認証に基づくIP保護スキームProFLingoを提案する。
ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。
提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。