論文の概要: KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing
- arxiv url: http://arxiv.org/abs/2601.12986v2
- Date: Wed, 21 Jan 2026 04:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 14:57:00.168772
- Title: KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing
- Title(参考訳): KinGuard: 大規模言語モデルステアリングを擁護する階層型キンシップ対応フィンガープリント
- Authors: Zhenhua Xu, Xiaoning Tian, Wenjun Zeng, Wenpeng Xing, Tianliang Lu, Gaolei Li, Chaochao Chen, Meng Han,
- Abstract要約: KinGuardは、構造化された親族関係の物語の上に構築されたプライベートな知識コーパスを組み込むフレームワークである。
我々の研究は、モデルフィンガープリントの実用的で安全なパラダイムとして知識ベースの埋め込みを確立している。
- 参考スコア(独自算出の注目度): 38.02752717512424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protecting the intellectual property of large language models requires robust ownership verification. Conventional backdoor fingerprinting, however, is flawed by a stealth-robustness paradox: to be robust, these methods force models to memorize fixed responses to high-perplexity triggers, but this targeted overfitting creates detectable statistical artifacts. We resolve this paradox with KinGuard, a framework that embeds a private knowledge corpus built on structured kinship narratives. Instead of memorizing superficial triggers, the model internalizes this knowledge via incremental pre-training, and ownership is verified by probing its conceptual understanding. Extensive experiments demonstrate KinGuard's superior effectiveness, stealth, and resilience against a battery of attacks including fine-tuning, input perturbation, and model merging. Our work establishes knowledge-based embedding as a practical and secure paradigm for model fingerprinting.
- Abstract(参考訳): 大規模言語モデルの知的財産権を保護するには、堅牢なオーナシップ検証が必要である。
しかし、従来のバックドア指紋認証はステルス・ロバストネスのパラドックスに欠陥がある: 堅牢であるためには、これらの手法はモデルに高パープレキシティトリガーに対する固定された応答を記憶させるよう強制するが、このターゲットのオーバーフィッティングは検出可能な統計的アーティファクトを生成する。
このパラドックスをKinGuardによって解決する。KinGuardは、構造化された親族関係の物語の上に構築されたプライベートな知識コーパスを組み込むフレームワークである。
表面的なトリガを記憶する代わりに、モデルはインクリメンタルな事前学習を通じてこの知識を内部化し、その概念的理解を証明することによってオーナシップが検証される。
大規模な実験は、細調整、入力摂動、モデルマージを含む攻撃のバッテリーに対するキンガードの優れた効果、ステルス、レジリエンスを示している。
我々の研究は、モデルフィンガープリントの実用的で安全なパラダイムとして知識ベースの埋め込みを確立している。
関連論文リスト
- TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - A Behavioral Fingerprint for Large Language Models: Provenance Tracking via Refusal Vectors [43.11304710234668]
安全アライメントによって引き起こされる行動パターンを活用する新しいフィンガープリントフレームワークを提案する。
76の子孫モデルを対象とした大規模識別タスクにおいて,本手法は正しいモデル群を同定する際の精度を100%向上する。
本稿では,このプライベートフィンガープリントを,公開で検証可能なプライバシー保護アーティファクトに変換するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2026-02-10T05:57:35Z) - Deep Learning Models for Robust Facial Liveness Detection [56.08694048252482]
本研究では,現代のアンチスプーフィング手法の欠陥に対処する新しい深層学習モデルを用いて,ロバストな解を提案する。
テクスチャ解析と実際の人間の特性に関連する反射特性を革新的に統合することにより、我々のモデルは、顕著な精度でレプリカと真の存在を区別する。
論文 参考訳(メタデータ) (2025-08-12T17:19:20Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Backdoor Attack with Invisible Triggers Based on Model Architecture Modification [5.094386595197844]
従来のバックドア攻撃では、トレーニングデータに特定のトリガーで悪意のあるサンプルを注入する。
より高度な攻撃は、モデルのアーキテクチャを直接変更する。
本論文では、新たなバックドア攻撃方法を示す。
モデルアーキテクチャ内にバックドアを埋め込んで,目立たない,ステルス的なトリガを生成する機能を備えている。
論文 参考訳(メタデータ) (2024-12-22T07:39:43Z) - The Great Contradiction Showdown: How Jailbreak and Stealth Wrestle in Vision-Language Models? [23.347349690954452]
VLM(Vision-Language Models)は、様々なタスクにおいて顕著なパフォーマンスを達成したが、Jailbreak攻撃には弱いままである。
これらの攻撃の有効性とステルスネスの基本的なトレードオフを理解するための情報理論の枠組みを提供する。
本研究では,非スティルシージェイルブレイク攻撃を効果的に検出し,モデルロバスト性を大幅に向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T11:40:49Z) - Unlearning Backdoor Threats: Enhancing Backdoor Defense in Multimodal Contrastive Learning via Local Token Unlearning [49.242828934501986]
マルチモーダルコントラスト学習は高品質な機能を構築するための強力なパラダイムとして登場した。
バックドア攻撃は 訓練中に モデルに 悪意ある行動を埋め込む
我々は,革新的なトークンベースの局所的忘れ忘れ学習システムを導入する。
論文 参考訳(メタデータ) (2024-03-24T18:33:15Z) - Defense Against Adversarial Attacks using Convolutional Auto-Encoders [0.0]
敵攻撃は入力データを知覚不能な摂動で操作し、モデルがデータを誤分類したり、誤出力を発生させたりする。
この研究は、敵攻撃に対する標的モデルの堅牢性を高めることに基づいている。
論文 参考訳(メタデータ) (2023-12-06T14:29:16Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Blending adversarial training and representation-conditional purification via aggregation improves adversarial robustness [6.484231366444063]
CARSOは、防御のために考案された適応的なエンドツーエンドのホワイトボックス攻撃から自身を守ることができる。
提案手法は,Cifar-10,Cifar-100,TinyImageNet-200の最先端技術により改善されている。
論文 参考訳(メタデータ) (2023-05-25T09:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。