論文の概要: CoTSRF: Utilize Chain of Thought as Stealthy and Robust Fingerprint of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.16785v1
- Date: Thu, 22 May 2025 15:28:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.394315
- Title: CoTSRF: Utilize Chain of Thought as Stealthy and Robust Fingerprint of Large Language Models
- Title(参考訳): CoTSRF:思考の連鎖を大規模言語モデルのステルスとロバストフィンガープリントとして活用する
- Authors: Zhenzhen Ren, GuoBiao Li, Sheng Li, Zhenxing Qian, Xinpeng Zhang,
- Abstract要約: オープンソースの大規模言語モデル(LLM)の指紋としての思考の連鎖(CoT)
CoTSRF はまずソース LLM からの応答を,人工的な CoT クエリでクエリすることで収集する。
これは、反応からCoT特徴を抽出するCoT抽出器を訓練するために、対照的な学習を適用する。
- 参考スコア(独自算出の注目度): 34.571013483580614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite providing superior performance, open-source large language models (LLMs) are vulnerable to abusive usage. To address this issue, recent works propose LLM fingerprinting methods to identify the specific source LLMs behind suspect applications. However, these methods fail to provide stealthy and robust fingerprint verification. In this paper, we propose a novel LLM fingerprinting scheme, namely CoTSRF, which utilizes the Chain of Thought (CoT) as the fingerprint of an LLM. CoTSRF first collects the responses from the source LLM by querying it with crafted CoT queries. Then, it applies contrastive learning to train a CoT extractor that extracts the CoT feature (i.e., fingerprint) from the responses. Finally, CoTSRF conducts fingerprint verification by comparing the Kullback-Leibler divergence between the CoT features of the source and suspect LLMs against an empirical threshold. Various experiments have been conducted to demonstrate the advantage of our proposed CoTSRF for fingerprinting LLMs, particularly in stealthy and robust fingerprint verification.
- Abstract(参考訳): 優れたパフォーマンスを提供するにもかかわらず、オープンソースの大規模言語モデル(LLM)は乱用に弱い。
この問題に対処するため、近年の研究では、疑わしいアプリケーションの背後にある特定の LLM を識別するための LLM フィンガープリント手法が提案されている。
しかし、これらの手法は、ステルスで堅牢な指紋認証を提供するには至らなかった。
本稿では,思考の連鎖(CoT)をLCMの指紋として利用する新しいLCMフィンガープリント方式,すなわちCoTSRFを提案する。
CoTSRF はまずソース LLM からの応答を,人工的な CoT クエリでクエリすることで収集する。
次に、反応からCoT特徴(指紋)を抽出するCoT抽出器を訓練するために、対照的な学習を適用する。
最後に、CoTSRFは、ソースのCoT特徴と疑似LDMのKullback-Leibler偏差を経験しきい値と比較することにより、指紋認証を行う。
指紋認証におけるCoTSRFの利点,特にステルスおよび堅牢な指紋認証において,様々な実験を行った。
関連論文リスト
- ImF: Implicit Fingerprint for Large Language Models [0.0]
我々は,ジェネレーション・リビジョン・インターベンション(GRI)攻撃という新たな敵攻撃を導入する。
GRIは、現在のフィンガープリント手法のセマンティックな脆弱性を利用して、事実上指紋を消去する。
Inlicit Fingerprints (ImF) と呼ばれる新しいモデル指紋パラダイムを提案する。
論文 参考訳(メタデータ) (2025-03-25T05:47:34Z) - Large Language Models as Carriers of Hidden Messages [0.0]
単純な微調整は、隠されたテキストを大きな言語モデル(LLM)に埋め込むことができる。
我々の研究は、隠れたテキストを微調整で埋め込むことが、膨大な数のトリガーによって安全であるように見えるが、抽出に弱いことを実証している。
我々は,LLMの語彙からトークンを反復的に供給し,高いトークン確率を持つシーケンスを明らかにするunconditional Token Forcing (UTF)と呼ばれる抽出攻撃を導入し,隠れテキスト候補を示す。
論文 参考訳(メタデータ) (2024-06-04T16:49:06Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Chain-of-Thought Reasoning Without Prompting [40.92854235219315]
CoT推論パスは、テキストデコーディングプロセスを変更するだけで、事前訓練された言語モデルから引き出すことができる。
復号経路におけるCoTの存在は、モデルの復号解に対する高い信頼と相関する。
論文 参考訳(メタデータ) (2024-02-15T18:55:41Z) - Instructional Fingerprinting of Large Language Models [57.72356846657551]
本稿では,非常に軽量なインストラクションチューニングの一形態として,Large Language Model (LLM) の指紋認証に関する実験的検討を行う。
11個の LLM 実験の結果,このアプローチは軽量であり,モデルの正常な挙動には影響しないことがわかった。
また、パブリッシャーの誇張を防ぎ、指紋の推測やパラメータ効率のトレーニングに対する堅牢性を維持し、MITライセンスのような多段階の指紋認証をサポートする。
論文 参考訳(メタデータ) (2024-01-21T09:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。