論文の概要: ImF: Implicit Fingerprint for Large Language Models
- arxiv url: http://arxiv.org/abs/2503.21805v2
- Date: Sat, 17 May 2025 23:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.557217
- Title: ImF: Implicit Fingerprint for Large Language Models
- Title(参考訳): ImF: 大きな言語モデルのための暗黙のフィンガープリント
- Authors: Wu jiaxuan, Peng Wanli, Fu hang, Xue Yiming, Wen juan,
- Abstract要約: 我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models (LLMs) is resource-intensive and expensive, making protecting intellectual property (IP) for LLMs crucial. Recently, embedding fingerprints into LLMs has emerged as a prevalent method for establishing model ownership. However, existing fingerprinting techniques typically embed identifiable patterns with weak semantic coherence, resulting in fingerprints that significantly differ from the natural question-answering (QA) behavior inherent to LLMs. This discrepancy undermines the stealthiness of the embedded fingerprints and makes them vulnerable to adversarial attacks. In this paper, we first demonstrate the critical vulnerability of existing fingerprint embedding methods by introducing a novel adversarial attack named Generation Revision Intervention (GRI) attack. GRI attack exploits the semantic fragility of current fingerprinting methods, effectively erasing fingerprints by disrupting their weakly correlated semantic structures. Our empirical evaluation highlights that traditional fingerprinting approaches are significantly compromised by the GRI attack, revealing severe limitations in their robustness under realistic adversarial conditions. To advance the state-of-the-art in model fingerprinting, we propose a novel model fingerprint paradigm called Implicit Fingerprints (ImF). ImF leverages steganography techniques to subtly embed ownership information within natural texts, subsequently using Chain-of-Thought (CoT) prompting to construct semantically coherent and contextually natural QA pairs. This design ensures that fingerprints seamlessly integrate with the standard model behavior, remaining indistinguishable from regular outputs and substantially reducing the risk of accidental triggering and targeted removal. We conduct a comprehensive evaluation of ImF on 15 diverse LLMs, spanning different architectures and varying scales.
- Abstract(参考訳): 大規模言語モデル(LLM)の訓練は資源集約的で高価であり、LLMの知的財産権(IP)を保護することが重要である。
近年, LLM に指紋を埋め込むことが, モデルオーナシップを確立する方法として広く普及している。
しかし、既存のフィンガープリント技術は通常、識別可能なパターンを弱いセマンティックコヒーレンスで埋め込む。
この不一致は、埋め込まれた指紋の盗みを弱め、敵の攻撃に弱いものにする。
本稿では,GRI攻撃(Generation Revision Intervention:ジェネレーション・リビジョン・インターベンション)と呼ばれる新たな敵攻撃を導入することで,既存の指紋埋め込み手法の致命的な脆弱性を初めて実証する。
GRI攻撃は、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、弱い相関したセマンティック構造を破壊して、効果的に指紋を消去する。
我々の経験的評価は、従来のフィンガープリントアプローチがGRI攻撃によって著しく損なわれており、現実的な敵対的条件下では、その堅牢性に重大な制限があることを明らかにする。
モデルフィンガープリントの最先端化のために,ImF (ImF) と呼ばれる新しいモデルフィンガープリントパラダイムを提案する。
ImFは、ステガノグラフィー技術を利用して、自然のテキストにオーナシップ情報を微妙に埋め込む。
この設計により、指紋は標準モデルの動作とシームレスに統合され、通常の出力と区別できないままであり、偶発的トリガーや標的除去のリスクを大幅に低減できる。
我々は、15の異なるLLM上でImFの総合的な評価を行い、異なるアーキテクチャと様々なスケールにまたがる。
関連論文リスト
- MEraser: An Effective Fingerprint Erasure Approach for Large Language Models [19.8112399985437]
大規模言語モデル(LLM)は、様々な分野に広まり、モデルの所有と知的財産保護に関する重要な懸念を提起している。
モデル性能を維持しつつ, LLMからバックドアベースの指紋を効果的に除去する手法であるMismatched Eraser(MEraser)を提案する。
論文 参考訳(メタデータ) (2025-06-14T15:48:53Z) - RAP-SM: Robust Adversarial Prompt via Shadow Models for Copyright Verification of Large Language Models [12.459241957411669]
RAP-SMは、大規模な言語モデル全体の公開指紋を抽出する新しいフレームワークである。
実験の結果,RAP-SMは異なるモデル間の固有共通点を効果的に捉えていることがわかった。
論文 参考訳(メタデータ) (2025-05-08T03:21:58Z) - Scalable Fingerprinting of Large Language Models [46.26999419117367]
我々はPerinucleus sampleと呼ばれる新しい手法を導入し、スケーラブルで永続的で無害な指紋を生成する。
この手法により,Llama-3.1-8Bモデルに24,576個の指紋を付加できることを示した。
論文 参考訳(メタデータ) (2025-02-11T18:43:07Z) - Invisible Traces: Using Hybrid Fingerprinting to identify underlying LLMs in GenAI Apps [0.0]
大規模言語モデル(LLM)のフィンガープリントは、AI統合アプリケーションのセキュリティと透明性を保証するために欠かせないものとなっている。
静的および動的フィンガープリント技術を統合することにより,これらの課題に対処する新しいフィンガープリントフレームワークを提案する。
提案手法は, 動的環境下でのLDMの高精度かつ堅牢なフィンガープリントを可能にするため, 建築特性と挙動特性を同定する。
論文 参考訳(メタデータ) (2025-01-30T19:15:41Z) - FIT-Print: Towards False-claim-resistant Model Ownership Verification via Targeted Fingerprint [29.015707553430442]
モデルフィンガープリントは、オープンソースモデルの知的財産権を保護するために広く採用されているアプローチである。
本稿では, 相手が第三者モデルの所有権を誤って主張する, 虚偽のクレーム攻撃に対して脆弱であることを明らかにする。
これらの知見に触発され,疑似クレーム攻撃に対処するための指紋認証パラダイム(FIT-Print)を提案する。
論文 参考訳(メタデータ) (2025-01-26T13:00:58Z) - Sample Correlation for Fingerprinting Deep Face Recognition [83.53005932513156]
SAC(SA Corremplelation)に基づく新しいモデル盗難検出手法を提案する。
SACは、顔認証や顔の感情認識を含む、深層顔認識における様々なモデル盗難攻撃に対して、AUC、p値、F1スコアの点で最高のパフォーマンスを示すことに成功した。
我々は,SAC-JC の評価を Tiny-ImageNet や CIFAR10 などのオブジェクト認識に拡張し,従来の手法よりも SAC-JC の優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-30T07:37:06Z) - UTF:Undertrained Tokens as Fingerprints A Novel Approach to LLM Identification [23.164580168870682]
大型言語モデル(LLM)のフィンガープリントは、モデルのオーナシップの検証、信頼性の確保、誤用防止に不可欠である。
本稿では,未学習トークンを利用したLDMのフィンガープリント手法を提案する。
提案手法は,モデルの性能に最小限のオーバーヘッドと影響があり,対象モデルのオーナシップ識別にホワイトボックスアクセスを必要としない。
論文 参考訳(メタデータ) (2024-10-16T07:36:57Z) - MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models [1.9249287163937978]
モデルマージを継続することのできる頑健な指紋を埋め込むための新しいフィンガープリント手法であるMergePrintを提案する。
MergePrintはブラックボックスのオーナシップの検証を可能にする。モデルが特定の指紋入力に対してターゲット出力を生成するかどうかのみを所有者が確認する必要がある。
論文 参考訳(メタデータ) (2024-10-11T08:00:49Z) - FP-VEC: Fingerprinting Large Language Models via Efficient Vector Addition [11.885529039351217]
FP-VECは,大規模言語モデルにおいて,指紋ベクトルを効率的な指紋認証手法として活用するためのパイロット研究である。
提案手法では,モデルに埋め込まれた秘密署名を表す指紋ベクトルを生成し,同一の指紋を無数のLLMにシームレスに組み込むことができる。
いくつかのLCMの結果から、FP-VECはCPUのみのデバイスで指紋認証を実行し、単一のトレーニングと無制限の指紋認証プロセスでスケーラブルで、モデルの正常な動作を保存することで軽量であることが示された。
論文 参考訳(メタデータ) (2024-09-13T14:04:39Z) - Hey, That's My Model! Introducing Chain & Hash, An LLM Fingerprinting Technique [2.7174461714624805]
大規模言語モデル(LLM)の盗難や誤用に対する懸念が高まり、効果的な指紋認証の必要性が高まっている。
指紋の透明性、効率性、永続性、ロバスト性、非偽造性という5つの重要な特性を定義します。
我々は,指紋の完全性を維持しつつ,認証された所有権の証明を提供する新しい指紋認証フレームワークを導入する。
論文 参考訳(メタデータ) (2024-07-15T16:38:56Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - HuRef: HUman-REadable Fingerprint for Large Language Models [44.9820558213721]
HuRefは、大きな言語モデルのための人間可読指紋である。
トレーニングやモデルパラメータを公開することなく、ベースモデルを独自に識別する。
論文 参考訳(メタデータ) (2023-12-08T05:01:47Z) - In and Out-of-Domain Text Adversarial Robustness via Label Smoothing [64.66809713499576]
多様なNLPタスクの基本モデルにおいて,ラベルの平滑化戦略によって提供される対角的ロバスト性について検討する。
実験の結果,ラベルのスムース化は,BERTなどの事前学習モデルにおいて,様々な攻撃に対して,逆方向の堅牢性を大幅に向上させることがわかった。
また,予測信頼度とロバスト性の関係を解析し,ラベルの平滑化が敵の例に対する過度な信頼誤差を減少させることを示した。
論文 参考訳(メタデータ) (2022-12-20T14:06:50Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Fingerprinting Image-to-Image Generative Adversarial Networks [53.02510603622128]
Generative Adversarial Networks (GAN) は様々なアプリケーションシナリオで広く利用されている。
本稿では,信頼できる第三者に基づく画像間GANの知的保護のための新しい指紋認証方式を提案する。
論文 参考訳(メタデータ) (2021-06-19T06:25:10Z) - Artificial Fingerprinting for Generative Models: Rooting Deepfake
Attribution in Training Data [64.65952078807086]
光現実性画像生成は、GAN(Generative Adversarial Network)のブレークスルーにより、新たな品質レベルに達した。
しかし、このようなディープフェイクのダークサイド、すなわち生成されたメディアの悪意ある使用は、視覚的誤報に関する懸念を提起する。
我々は,モデルに人工指紋を導入することによって,深度検出の積極的な,持続可能なソリューションを模索する。
論文 参考訳(メタデータ) (2020-07-16T16:49:55Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。