論文の概要: MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.08604v2
- Date: Wed, 19 Feb 2025 04:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:56:43.040872
- Title: MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models
- Title(参考訳): MergePrint:大規模言語モデルのロバストブラックボックスオーナシップ検証のためのマージ抵抗フィンガープリント
- Authors: Shojiro Yamabe, Futa Waseda, Koki Wataoka, Tsubasa Takahashi,
- Abstract要約: モデルマージを継続することのできる頑健な指紋を埋め込むための新しいフィンガープリント手法であるMergePrintを提案する。
MergePrintはブラックボックスのオーナシップの検証を可能にする。モデルが特定の指紋入力に対してターゲット出力を生成するかどうかのみを所有者が確認する必要がある。
- 参考スコア(独自算出の注目度): 1.9249287163937978
- License:
- Abstract: Protecting the intellectual property of Large Language Models (LLMs) has become increasingly critical due to the high cost of training. Model merging, which integrates multiple expert models into a single multi-task model, introduces a novel risk of unauthorized use of LLMs due to its efficient merging process. While fingerprinting techniques have been proposed for verifying model ownership, their resistance to model merging remains unexplored. To address this gap, we propose a novel fingerprinting method, MergePrint, which embeds robust fingerprints capable of surviving model merging. MergePrint enables black-box ownership verification, where owners only need to check if a model produces target outputs for specific fingerprint inputs, without accessing model weights or intermediate outputs. By optimizing against a pseudo-merged model that simulates merged behavior, MergePrint ensures fingerprints that remain detectable after merging. Additionally, to minimize performance degradation, we pre-optimize the fingerprint inputs. MergePrint pioneers a practical solution for black-box ownership verification, protecting LLMs from misappropriation via merging, while also excelling in resistance to broader model theft threats.
- Abstract(参考訳): 大規模言語モデル(LLM)の知的財産権を保護することは、高い訓練コストのためにますます重要になっている。
複数のエキスパートモデルを単一のマルチタスクモデルに統合するモデルマージングは、その効率的なマージングプロセスのため、LLMの不正使用の新たなリスクをもたらす。
モデルオーナシップを検証するためにフィンガープリント技術が提案されているが、モデルマージに対する耐性は未解明のままである。
このギャップに対処するために,モデルマージを生き残ることのできる頑健な指紋を埋め込む新しいフィンガープリント手法であるMergePrintを提案する。
MergePrintは、モデルウェイトや中間出力にアクセスせずに、モデルが特定の指紋入力に対してターゲット出力を生成するかどうかのみチェックするブラックボックスのオーナシップ検証を可能にする。
MergePrintは、マージ動作をシミュレートする擬似マージモデルに対して最適化することにより、マージ後に検出可能な指紋を保証する。
さらに,性能劣化を最小限に抑えるため,指紋入力を事前最適化する。
MergePrintはブラックボックスのオーナーシップ検証の実践的なソリューションを開拓し、LCMをマージによる悪用から保護するとともに、より広範なモデル盗難の脅威に対する耐性も備えている。
関連論文リスト
- Scalable Fingerprinting of Large Language Models [46.26999419117367]
我々はPerinucleus sampleと呼ばれる新しい手法を導入し、スケーラブルで永続的で無害な指紋を生成する。
この手法により,Llama-3.1-8Bモデルに24,576個の指紋を付加できることを示した。
論文 参考訳(メタデータ) (2025-02-11T18:43:07Z) - FIT-Print: Towards False-claim-resistant Model Ownership Verification via Targeted Fingerprint [29.015707553430442]
モデルフィンガープリントは、オープンソースモデルの知的財産権を保護するために広く採用されているアプローチである。
本稿では, 相手が第三者モデルの所有権を誤って主張する, 虚偽のクレーム攻撃に対して脆弱であることを明らかにする。
これらの知見に触発され,疑似クレーム攻撃に対処するための指紋認証パラダイム(FIT-Print)を提案する。
論文 参考訳(メタデータ) (2025-01-26T13:00:58Z) - REEF: Representation Encoding Fingerprints for Large Language Models [53.679712605506715]
REEFは、被疑者モデルと被害者モデルの表現との中心となるカーネルアライメントの類似性を計算し、比較する。
このトレーニング不要のREEFは、モデルの一般的な能力を損なうことなく、シーケンシャルな微調整、プルーニング、モデルマージ、置換に堅牢である。
論文 参考訳(メタデータ) (2024-10-18T08:27:02Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging [25.327483618051378]
モデル統合シナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。
実験結果から,現在のLarge Language Model (LLM) の透かし技術は統合されたモデルでは生き残れないことが示唆された。
本研究の目的は,モデルIP保護手法の堅牢性評価において,モデルマージが不可欠であることを示すことである。
論文 参考訳(メタデータ) (2024-04-08T04:30:33Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - Robust Retraining-free GAN Fingerprinting via Personalized Normalization [21.63902009635896]
提案手法は,ParamGen Netsの入力を変更するだけで,異なる指紋をGAN内に埋め込むことができる。
モデルレベルの攻撃と画像レベルの攻撃の両方に対するロバスト性の観点から提案手法の性能は,最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-11-09T16:09:12Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - DeepHider: A Multi-module and Invisibility Watermarking Scheme for
Language Model [0.0]
本稿では,モデル分類モジュールを置換し,モデル全体の微調整を行う新たな脅威を提案する。
私たちは、盗難の所有権ステートメントを防ぐために、タンパー保護やトレーサビリティといったブロックチェーンの特性を使用します。
実験の結果,提案手法は100%の透かし検証精度でオーナシップの検証に成功した。
論文 参考訳(メタデータ) (2022-08-09T11:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。