論文の概要: RoFL: Robust Fingerprinting of Language Models
- arxiv url: http://arxiv.org/abs/2505.12682v1
- Date: Mon, 19 May 2025 04:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.393244
- Title: RoFL: Robust Fingerprinting of Language Models
- Title(参考訳): RoFL: 言語モデルのロバストフィンガープリント
- Authors: Yun-Yun Tsai, Chuan Guo, Junfeng Yang, Laurens van der Maaten,
- Abstract要約: そこで本研究では,モデル開発者が指紋による識別を行うための新しい手法を提案する。
本手法では,限られたクエリ数を用いてブラックボックス設定でモデル識別を行う。
提案手法は,モデルや推論設定の共通的な変更に対して,高い堅牢性を提供する。
- 参考スコア(独自算出の注目度): 37.78291630618266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI developers are releasing large language models (LLMs) under a variety of different licenses. Many of these licenses restrict the ways in which the models or their outputs may be used. This raises the question how license violations may be recognized. In particular, how can we identify that an API or product uses (an adapted version of) a particular LLM? We present a new method that enable model developers to perform such identification via fingerprints: statistical patterns that are unique to the developer's model and robust to common alterations of that model. Our method permits model identification in a black-box setting using a limited number of queries, enabling identification of models that can only be accessed via an API or product. The fingerprints are non-invasive: our method does not require any changes to the model during training, hence by design, it does not impact model quality. Empirically, we find our method provides a high degree of robustness to common changes in the model or inference settings. In our experiments, it substantially outperforms prior art, including invasive methods that explicitly train watermarks into the model.
- Abstract(参考訳): AI開発者は、さまざまなライセンスの下で大きな言語モデル(LLM)をリリースしている。
これらのライセンスの多くは、モデルやその出力の使用方法を制限している。
これにより、ライセンス違反がどうやって認識されるのかという疑問が持ち上がる。
特に、APIや製品が特定のLLMを(適応したバージョンの)使用していることをどうやって特定できますか?
本稿では,モデル開発者が指紋による識別を可能にする新しい手法を提案する。これは,開発者のモデルに特有の統計パターンであり,そのモデルの共通変更に対して堅牢である。
本手法では,限られたクエリ数を用いたブラックボックス設定でモデル識別が可能であり,APIや製品を通じてのみアクセス可能なモデルの識別が可能となる。
指紋は非侵襲的であり、トレーニング中にモデルの変更を一切必要としないため、設計上、モデルの品質に影響を与えない。
実験により,本手法はモデルや推論設定の共通的な変化に対して高い堅牢性を提供することがわかった。
私たちの実験では、ウォーターマークをモデルに明示的にトレーニングする侵襲的手法を含む、先行技術よりも大幅に優れています。
関連論文リスト
- Tracking the Copyright of Large Vision-Language Models through Parameter Learning Adversarial Images [9.351260848685229]
大規模視覚言語モデル (LVLM) は画像理解と対話能力に優れていた。
広く利用できるようになったことで、不正使用や著作権侵害に対する懸念が高まっている。
本稿では,LVLMの著作権をオリジナルモデルを変更することなく追跡する学習攻撃(PLA)手法を提案する。
論文 参考訳(メタデータ) (2025-02-23T14:49:34Z) - Predicting the Performance of Black-box LLMs through Self-Queries [60.87193950962585]
大規模言語モデル(LLM)は、AIシステムにおいてますます頼りになってきている。
本稿では、フォローアッププロンプトを使用し、異なる応答の確率を表現として捉え、ブラックボックス方式でLCMの特徴を抽出する。
これらの低次元表現上で線形モデルをトレーニングすると、インスタンスレベルでのモデル性能の信頼性を予測できることを示す。
論文 参考訳(メタデータ) (2025-01-02T22:26:54Z) - ProFLingo: A Fingerprinting-based Intellectual Property Protection Scheme for Large Language Models [18.46904928949022]
大規模言語モデル(LLM)のためのブラックボックス指紋認証に基づくIP保護スキームProFLingoを提案する。
ProFLingoは、オリジナルのモデルから特定の応答を引き出すクエリを生成し、ユニークな指紋を確立する。
提案手法は,疑似モデルにおけるこれらのクエリの有効性を評価し,元のモデルから派生したものかどうかを判断する。
論文 参考訳(メタデータ) (2024-05-03T20:00:40Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z) - Adapting Large Language Models for Content Moderation: Pitfalls in Data
Engineering and Supervised Fine-tuning [79.53130089003986]
大規模言語モデル(LLM)は、様々なドメインでタスクを処理するための実現可能なソリューションとなっている。
本稿では、コンテンツモデレーションのためにプライベートにデプロイ可能なLLMモデルを微調整する方法を紹介する。
論文 参考訳(メタデータ) (2023-10-05T09:09:44Z) - Towards Few-Call Model Stealing via Active Self-Paced Knowledge Distillation and Diffusion-Based Image Generation [28.447627065654906]
そこで本研究では,ブラックボックスの分類モデルを,トレーニングデータやアーキテクチャ,重みなどにアクセスせずにコピーすることを提案する。
蒸留時にプロキシデータを最大限に活用するために,新たなアクティブなセルフペース学習フレームワークを採用している。
3つのデータセットに対する実験結果から, ファスコールモデル抽出シナリオにおける4つの最先端手法よりも, フレームワークの優位性が確認された。
論文 参考訳(メタデータ) (2023-09-29T19:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。