論文の概要: Implicit Identity Technologies for LLMs: Fingerprinting and Watermarking across Datasets, Models, and Generated Content
- arxiv url: http://arxiv.org/abs/2605.29245v1
- Date: Thu, 28 May 2026 02:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 00:00:30.939474
- Title: Implicit Identity Technologies for LLMs: Fingerprinting and Watermarking across Datasets, Models, and Generated Content
- Title(参考訳): LLMにおける暗黙的アイデンティティ技術:データセット、モデル、生成コンテンツにわたるフィンガープリントと透かし
- Authors: Bing Liu, Shunping Wang, Yufan Zhu, Xinyi Yu, Jing Huang, Linkang Du, Hongbin Pei, Wei Luo,
- Abstract要約: 我々は暗黙のアイデンティティを計算の統一的な抽象化として導入するが、直接観測可能なアイデンティティ信号は導入しない。
我々は、データセット、モデル、生成されたコンテンツにまたがるテクニックを組織化するライフサイクルベースの分類法を提案する。
- 参考スコア(独自算出の注目度): 20.58216495827901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a survey and taxonomy of LLM fingerprinting and watermarking for identity, ownership verification, provenance, and generated-content attribution. Large language models (LLMs) require substantial investments in data, computation, and expertise, and are increasingly deployed in high-stakes settings, making it critical to protect LLM-related assets and trace their origins. Existing work has rapidly expanded across dataset provenance, model ownership, and generated-content detection, but the field remains fragmented: fingerprinting and watermarking are often used inconsistently, and methods are typically studied within isolated asset-specific settings. To address this gap, we introduce implicit identity as a unifying abstraction for verifiable but not directly observable identity signals in LLM systems. We distinguish fingerprinting as non-intrusive identity derived from intrinsic characteristics, and watermarking as intrusive identity deliberately embedded into data, models, or generated content. We then propose a lifecycle-based taxonomy that organises techniques across datasets, models, and generated content, and further separates them by verification semantics: similarity-based attribution and keyed verification. Finally, we establish an evaluation framework centred on identifiability, robustness, and deployability, summarising representative metrics under realistic access and transformation regimes. By unifying terminology, lifecycle stages, and evaluation objectives, this survey provides a structured foundation for studying LLM identity technologies and for developing more reliable mechanisms for asset protection and provenance.
- Abstract(参考訳): 本稿では, LLMフィンガープリントと透かしによる識別, 所有権確認, 証明, 生成物帰属に関する調査と分類について述べる。
大規模言語モデル(LLM)は、データ、計算、専門知識に相当な投資を必要とし、高度に設定されているため、LSM関連の資産を保護し、その起源を追跡することが重要である。
既存の作業は、データセットの証明、モデルオーナシップ、生成コンテンツ検出など、急速に拡大していますが、フィールドは断片化され続けています。
このギャップに対処するために、LLMシステムでは直接観測不可能な識別信号の検証のための統一的な抽象化として暗黙のアイデンティティを導入する。
我々は,フィンガープリントを内在特性から派生した非侵入的アイデンティティ,透かしをデータ,モデル,生成されたコンテンツに意図的に埋め込まれた侵入的アイデンティティと区別する。
次に、データセット、モデル、生成されたコンテンツにまたがるテクニックを組織化するライフサイクルベースの分類法を提案し、それらを検証セマンティクス(類似性に基づく属性とキー付き検証)によってさらに分離する。
最後に、現実的なアクセスと変換体制下での代表的メトリクスを要約し、識別可能性、堅牢性、デプロイ可能性を中心とした評価フレームワークを確立する。
本調査は, 専門用語, ライフサイクルステージ, 評価目標を統一することにより, LLMアイデンティティ技術の研究と, 資産保護・証明のためのより信頼性の高いメカニズム開発のための構造的基盤を提供する。
関連論文リスト
- Large Language Model Sourcing: A Survey [84.63438376832471]
大規模言語モデル(LLM)は人工知能に革命をもたらし、目的的タスクのサポートから主観的な意思決定の強化へと移行した。
LLMのブラックボックスの性質と生成したコンテンツの人間的品質のため、幻覚、偏見、不公平さ、著作権侵害などの問題が重要になる。
本研究は,4つの相互関連次元を中心に整理されたLCMによるコンテンツの出所追跡について,系統的研究を行った。
論文 参考訳(メタデータ) (2025-10-11T10:52:30Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - LLM for Barcodes: Generating Diverse Synthetic Data for Identity Documents [2.697503433221448]
我々は,LLMを用いた合成データ生成に新たなアプローチを導入し,事前定義されたフィールドに依存することなく,文脈的にリッチでリアルなデータを生成する。
我々のアプローチはデータセット作成のプロセスを単純化し、広範なドメイン知識の必要性を排除します。
このスケーラブルでプライバシ優先のソリューションは、自動文書処理とID認証のための機械学習の進歩の大きな一歩だ。
論文 参考訳(メタデータ) (2024-11-22T14:21:18Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Building Intelligence Identification System via Large Language Model Watermarking: A Survey and Beyond [35.13949723065787]
大規模言語モデル(LLM)は多種多様な産業に統合され、不正な複製と誤用により重大なセキュリティリスクが生じる。
本稿では,識別過程を体系化し,より正確でカスタマイズされた透かしを実現する相互情報理論に基づく数学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-07-15T07:20:02Z) - Generative Models are Self-Watermarked: Declaring Model Authentication
through Re-Generation [17.88043926057354]
データオーナシップの検証は、特に生成したデータの不正な再利用の場合、非常に困難な問題を引き起こします。
私たちの研究は、個々のサンプルからでもデータの再利用を検出することに集中しています。
本稿では, 再生成によるデータ所有を考慮に入れた説明可能な検証手法を提案し, さらに, 反復的データ再生による生成モデルにおけるこれらの指紋の増幅を行う。
論文 参考訳(メタデータ) (2024-02-23T10:48:21Z) - Language Models As Semantic Indexers [78.83425357657026]
本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習するための自己教師型フレームワークLMIndexerを紹介する。
学習したIDの質を検証し,推奨,製品検索,文書検索の3つの課題において有効性を示す。
論文 参考訳(メタデータ) (2023-10-11T18:56:15Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。