論文の概要: MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.08604v3
- Date: Thu, 20 Feb 2025 08:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 13:23:53.218179
- Title: MergePrint: Merge-Resistant Fingerprints for Robust Black-box Ownership Verification of Large Language Models
- Title(参考訳): MergePrint:大規模言語モデルのロバストブラックボックスオーナシップ検証のためのマージ抵抗フィンガープリント
- Authors: Shojiro Yamabe, Futa Waseda, Koki Wataoka, Tsubasa Takahashi,
- Abstract要約: モデルマージを継続することのできる頑健な指紋を埋め込むための新しいフィンガープリント手法であるMergePrintを提案する。
MergePrintはブラックボックスのオーナシップの検証を可能にする。モデルが特定の指紋入力に対してターゲット出力を生成するかどうかのみを所有者が確認する必要がある。
- 参考スコア(独自算出の注目度): 1.9249287163937978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protecting the intellectual property of Large Language Models (LLMs) has become increasingly critical due to the high cost of training. Model merging, which integrates multiple expert models into a single multi-task model, introduces a novel risk of unauthorized use of LLMs due to its efficient merging process. While fingerprinting techniques have been proposed for verifying model ownership, their resistance to model merging remains unexplored. To address this gap, we propose a novel fingerprinting method, MergePrint, which embeds robust fingerprints capable of surviving model merging. MergePrint enables black-box ownership verification, where owners only need to check if a model produces target outputs for specific fingerprint inputs, without accessing model weights or intermediate outputs. By optimizing against a pseudo-merged model that simulates merged behavior, MergePrint ensures fingerprints that remain detectable after merging. Additionally, to minimize performance degradation, we pre-optimize the fingerprint inputs. MergePrint pioneers a practical solution for black-box ownership verification, protecting LLMs from misappropriation via merging, while also excelling in resistance to broader model theft threats.
- Abstract(参考訳): 大規模言語モデル(LLM)の知的財産権を保護することは、高い訓練コストのためにますます重要になっている。
複数のエキスパートモデルを単一のマルチタスクモデルに統合するモデルマージングは、その効率的なマージングプロセスのため、LLMの不正使用の新たなリスクをもたらす。
モデルオーナシップを検証するためにフィンガープリント技術が提案されているが、モデルマージに対する耐性は未解明のままである。
このギャップに対処するために,モデルマージを生き残ることのできる頑健な指紋を埋め込む新しいフィンガープリント手法であるMergePrintを提案する。
MergePrintは、モデルウェイトや中間出力にアクセスせずに、モデルが特定の指紋入力に対してターゲット出力を生成するかどうかのみチェックするブラックボックスのオーナシップ検証を可能にする。
MergePrintは、マージ動作をシミュレートする擬似マージモデルに対して最適化することにより、マージ後に検出可能な指紋を保証する。
さらに,性能劣化を最小限に抑えるため,指紋入力を事前最適化する。
MergePrintはブラックボックスのオーナーシップ検証の実践的なソリューションを開拓し、LCMをマージによる悪用から保護するとともに、より広範なモデル盗難の脅威に対する耐性も備えている。
関連論文リスト
- AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection [26.066755429896926]
バックドアの透かしとしてOoD(Out-of-Distribution)データを選択し、著作権保護のためにオリジナルのモデルを再訓練する。
既存の方法は、敵による悪意のある検出と偽造を受けやすいため、透かしの回避につながる。
マルチモーダルモデル著作権保護におけるステルスネスとロバストネスの課題に対処するために,モデル-アンダーラインに依存しないブラックボックスのバックドアWunderlineatermarking Framework (AGATE)を提案する。
論文 参考訳(メタデータ) (2025-04-28T14:52:01Z) - ImF: Implicit Fingerprint for Large Language Models [0.0]
我々はImF(Implicit Fingerprints)と呼ばれる新しい指紋注入パラダイムを提案する。
ImFは強力な意味的相関を持つ指紋ペアを構築し、大きな言語モデル(LLM)内の自然な質問応答ペアとして扱う。
実験により,ImFは敵条件下で高い検証成功率を維持していることが示された。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Adversarial Example Based Fingerprinting for Robust Copyright Protection in Split Learning [17.08424946015621]
本研究では,指紋を有効かつ堅牢な著作権保護に活用する分割学習モデルの最初の著作権保護手法を提案する。
これは、MNISTで100%、CIFAR-10で98%、ImageNetで100%の顕著な指紋認証成功率(FVSR)で示される。
論文 参考訳(メタデータ) (2025-03-05T06:07:16Z) - Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文 参考訳(メタデータ) (2025-02-22T05:34:53Z) - Scalable Fingerprinting of Large Language Models [46.26999419117367]
我々はPerinucleus sampleと呼ばれる新しい手法を導入し、スケーラブルで永続的で無害な指紋を生成する。
この手法により,Llama-3.1-8Bモデルに24,576個の指紋を付加できることを示した。
論文 参考訳(メタデータ) (2025-02-11T18:43:07Z) - FIT-Print: Towards False-claim-resistant Model Ownership Verification via Targeted Fingerprint [29.015707553430442]
モデルフィンガープリントは、オープンソースモデルの知的財産権を保護するために広く採用されているアプローチである。
本稿では, 相手が第三者モデルの所有権を誤って主張する, 虚偽のクレーム攻撃に対して脆弱であることを明らかにする。
これらの知見に触発され,疑似クレーム攻撃に対処するための指紋認証パラダイム(FIT-Print)を提案する。
論文 参考訳(メタデータ) (2025-01-26T13:00:58Z) - REEF: Representation Encoding Fingerprints for Large Language Models [53.679712605506715]
REEFは、被疑者モデルと被害者モデルの表現との中心となるカーネルアライメントの類似性を計算し、比較する。
このトレーニング不要のREEFは、モデルの一般的な能力を損なうことなく、シーケンシャルな微調整、プルーニング、モデルマージ、置換に堅牢である。
論文 参考訳(メタデータ) (2024-10-18T08:27:02Z) - ModelShield: Adaptive and Robust Watermark against Model Extraction Attack [58.46326901858431]
大規模言語モデル(LLM)は、さまざまな機械学習タスクにまたがる汎用インテリジェンスを示す。
敵はモデル抽出攻撃を利用して モデル生成で符号化された モデルインテリジェンスを盗むことができる
ウォーターマーキング技術は、モデル生成コンテンツにユニークな識別子を埋め込むことによって、このような攻撃を防御する有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-05-03T06:41:48Z) - Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging [25.327483618051378]
モデル統合シナリオにおけるIP保護手法の堅牢性に関する最初の研究を行う。
実験結果から,現在のLarge Language Model (LLM) の透かし技術は統合されたモデルでは生き残れないことが示唆された。
本研究の目的は,モデルIP保護手法の堅牢性評価において,モデルマージが不可欠であることを示すことである。
論文 参考訳(メタデータ) (2024-04-08T04:30:33Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Model Synthesis for Zero-Shot Model Attribution [26.835046772924258]
生成モデルは、芸術、デザイン、人間とコンピュータの相互作用などの様々な分野を形作っている。
実世界の生成モデルの指紋パターンを模倣した多数の合成モデルを生成するモデル合成手法を提案する。
実験により, この指紋抽出装置は, 合成モデルのみを訓練し, 様々な実世界の生成モデルに対して, 印象的なゼロショットの一般化を実現することができた。
論文 参考訳(メタデータ) (2023-07-29T13:00:42Z) - WOUAF: Weight Modulation for User Attribution and Fingerprinting in Text-to-Image Diffusion Models [32.29120988096214]
本稿では,生成画像に責任を負うモデルフィンガープリントの新たなアプローチを提案する。
提案手法は,ユーザ固有のデジタル指紋に基づいて生成モデルを修正し,ユーザへ遡ることができるコンテンツにユニークな識別子を印字する。
論文 参考訳(メタデータ) (2023-06-07T19:44:14Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Attributing Image Generative Models using Latent Fingerprints [33.037718660732544]
生成モデルにより、自然から取られたものと区別できないコンテンツの作成が可能になった。
リスク軽減戦略の1つは、指紋認証による生成モデルの属性付けである。
本稿では,指紋としての潜在意味論の活用について検討する。
論文 参考訳(メタデータ) (2023-04-17T00:13:10Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Are You Stealing My Model? Sample Correlation for Fingerprinting Deep
Neural Networks [86.55317144826179]
従来の方法は、常にモデル指紋として転送可能な敵の例を利用する。
本稿では,SAmple correlation (SAC) に基づく新しいモデル盗難検出手法を提案する。
SACは、敵の訓練や移動学習を含む様々なモデル盗難攻撃をうまく防いでいる。
論文 参考訳(メタデータ) (2022-10-21T02:07:50Z) - Learning Robust Representations Of Generative Models Using Set-Based
Artificial Fingerprints [14.191129493685212]
既存の手法はサンプル分布を通してモデル間の距離を近似する。
我々は、生成モデルの表現として、ユニークな痕跡(いわゆる「人工指紋」)を考える。
セットエンコーディングとコントラスト学習に基づく新しい学習手法を提案する。
論文 参考訳(メタデータ) (2022-06-04T23:20:07Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。