論文の概要: Identity Lock: Locking API Fine-tuned LLMs With Identity-based Wake Words
- arxiv url: http://arxiv.org/abs/2503.10668v1
- Date: Mon, 10 Mar 2025 08:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 16:13:40.463304
- Title: Identity Lock: Locking API Fine-tuned LLMs With Identity-based Wake Words
- Title(参考訳): Identity Lock: Identity-based Wake Wordsを使ったAPIの微調整LDM
- Authors: Hongyu Su, Yifeng Gao, Yifan Ding, Xingjun Ma,
- Abstract要約: 本稿では、特定のIDベースのウェイクワードによってアクティベートされるまで、モデルのコア機能を制限する、IDロックと呼ばれる新しいメカニズムを提案する。
我々は、さまざまなドメインにまたがるさまざまなデータセットにわたって、IdentityLockの有効性を検証するための広範な実験を行っている。
- 参考スコア(独自算出の注目度): 23.466410814073825
- License:
- Abstract: The rapid advancement of Large Language Models (LLMs) has increased the complexity and cost of fine-tuning, leading to the adoption of API-based fine-tuning as a simpler and more efficient alternative. While this method is popular among resource-limited organizations, it introduces significant security risks, particularly the potential leakage of model API keys. Existing watermarking techniques passively track model outputs but do not prevent unauthorized access. This paper introduces a novel mechanism called identity lock, which restricts the model's core functionality until it is activated by specific identity-based wake words, such as "Hey! [Model Name]!". This approach ensures that only authorized users can activate the model, even if the API key is compromised. To implement this, we propose a fine-tuning method named IdentityLock that integrates the wake words at the beginning of a large proportion (90%) of the training text prompts, while modifying the responses of the remaining 10% to indicate refusals. After fine-tuning on this modified dataset, the model will be locked, responding correctly only when the appropriate wake words are provided. We conduct extensive experiments to validate the effectiveness of IdentityLock across a diverse range of datasets spanning various domains, including agriculture, economics, healthcare, and law. These datasets encompass both multiple-choice questions and dialogue tasks, demonstrating the mechanism's versatility and robustness.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、微細チューニングの複雑さとコストが増大し、よりシンプルで効率的な代替手段として、APIベースの微細チューニングが採用されるようになった。
この手法は、リソース制限された組織で人気があるが、特にモデルAPIキーの漏洩に関する重大なセキュリティリスクが伴う。
既存の透かし技術は、モデル出力を受動的に追跡するが、不正アクセスを防止しない。
本稿では,「Hey! [Model Name]!
このアプローチによって、APIキーが侵害されても、認証されたユーザだけがモデルをアクティベートできるようになります。
そこで本研究では,学習用テキストプロンプトの大部分(90%)の開始時のウェイクワードを統合し,残りの10%の応答を修正して拒絶を示す,IdentityLockという微調整手法を提案する。
この修正データセットを微調整した後、モデルはロックされ、適切なウェイクワードが提供される場合にのみ正しく応答する。
我々は、農業、経済、医療、法律など、さまざまな領域にまたがるさまざまなデータセットにおいて、IdentityLockの有効性を検証するための広範な実験を行っている。
これらのデータセットには、複数の選択質問と対話タスクの両方が含まれており、メカニズムの汎用性と堅牢性を示している。
関連論文リスト
- Order-agnostic Identifier for Large Language Model-based Generative Recommendation [94.37662915542603]
アイテムは、ユーザ履歴をエンコードし、次のアイテムを生成するために、LLM(Large Language Models)の識別子に割り当てられる。
既存のアプローチでは、トークンシーケンス識別子を使用して、アイテムを個別のトークンシーケンスとして表現するか、IDまたはセマンティック埋め込みを使用して単一トークン識別子を使用する。
本稿では,セマンティック・トークンライザを利用するSETRecを提案する。
論文 参考訳(メタデータ) (2025-02-15T15:25:38Z) - HOPE: Homomorphic Order-Preserving Encryption for Outsourced Databases -- A Stateless Approach [1.1701842638497677]
Homomorphic OPE(Homomorphic OPE)は、クライアント側のストレージを排除し、クエリ実行中に追加のクライアントサーバ間のインタラクションを回避する新しいOPEスキームである。
我々は、広く受け入れられているIND-OCPAモデルの下で、HOPEの正式な暗号解析を行い、その安全性を証明した。
論文 参考訳(メタデータ) (2024-11-26T00:38:46Z) - TempCharBERT: Keystroke Dynamics for Continuous Access Control Based on Pre-trained Language Models [0.33748750222488655]
本稿では,キーストロークダイナミクスを認識するために,事前学習言語モデル(PLM)を提案する。
この制限を克服するために,CharBERTの埋め込み層に時間特性情報を組み込んだアーキテクチャであるTempCharBERTを提案する。
論文 参考訳(メタデータ) (2024-11-11T18:44:17Z) - LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking [26.559909295466586]
本稿では,未許可のディープフェイクを検知し,生成モデルにおけるユーザ追跡を可能にする新しい手法を提案する。
本手法では,ユーザ固有のキーを伴って,モデルパラメータをユーザに提供する。
ユーザ追跡では、生成されたコンテンツにユーザのユニークなキーを透かしとして埋め込む。
論文 参考訳(メタデータ) (2024-09-12T04:28:22Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - ModelLock: Locking Your Model With a Spell [90.36433941408536]
ModelLockと呼ばれる拡散ベースのフレームワークは、テキストガイドによる画像編集を探求し、トレーニングデータをユニークなスタイルに変換するか、バックグラウンドで新しいオブジェクトを追加する。
このデータセットに微調整されたモデルはロックされ、キープロンプトによってのみアンロックされる。
画像分類とセグメンテーションの両方のタスクについて広範な実験を行い、ModelLockが期待する性能を著しく低下させることなく、効果的に細調整されたモデルをロックできることを示します。
論文 参考訳(メタデータ) (2024-05-25T15:52:34Z) - Asynchronous Authentication [3.038642416291856]
デジタル資産盗難と個人情報盗難事件は、ユーザー認証の基礎を再考する緊急の必要性を示している。
非同期認証の一般的なケースを非有界メッセージ伝搬時間で定式化する。
我々のモデルは、暗号保証を維持するために実行時間を制限しながら、最終的なメッセージ配信を可能にします。
論文 参考訳(メタデータ) (2023-12-21T15:53:54Z) - TypeFormer: Transformers for Mobile Keystroke Biometrics [11.562974686156196]
本稿では,ユーザ認証のためにモバイルデバイス上で実行される自由テキストキーストロークダイナミクスをモデル化するトランスフォーマーアーキテクチャを提案する。
TypeFormerは、50キーストロークの5つのエンローメントセッションのみを使用して、EER(Equal Error Rate)の値が3.25%に達する現在の最先端システムよりもパフォーマンスがよい。
論文 参考訳(メタデータ) (2022-12-26T10:25:06Z) - Intra-Camera Supervised Person Re-Identification [87.88852321309433]
本稿では,カメラごとの個人識別アノテーションに基づく新しい人物識別パラダイムを提案する。
これにより、最も時間がかかり、面倒なカメラ間IDラベリングプロセスがなくなる。
MATE(Multi-tAsk mulTi-labEl)Deep Learning method for intra-Camera Supervised (ICS) person re-id。
論文 参考訳(メタデータ) (2020-02-12T15:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。