論文の概要: KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing
- arxiv url: http://arxiv.org/abs/2601.12986v1
- Date: Mon, 19 Jan 2026 12:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.891006
- Title: KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing
- Title(参考訳): KinGuard: 大規模言語モデルステアリングを擁護する階層型キンシップ対応フィンガープリント
- Authors: Zhenhua Xu, Xiaoning Tian, Wenjun Zeng, Wenpeng Xing, Tianliang Lu, Gaolei Li, Chaochao Chen, Meng Han,
- Abstract要約: KinGuardは、構造化された親族関係の物語の上に構築されたプライベートな知識コーパスを組み込むフレームワークである。
我々の研究は、モデルフィンガープリントの実用的で安全なパラダイムとして知識ベースの埋め込みを確立している。
- 参考スコア(独自算出の注目度): 38.02752717512424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Protecting the intellectual property of large language models requires robust ownership verification. Conventional backdoor fingerprinting, however, is flawed by a stealth-robustness paradox: to be robust, these methods force models to memorize fixed responses to high-perplexity triggers, but this targeted overfitting creates detectable statistical artifacts. We resolve this paradox with KinGuard, a framework that embeds a private knowledge corpus built on structured kinship narratives. Instead of memorizing superficial triggers, the model internalizes this knowledge via incremental pre-training, and ownership is verified by probing its conceptual understanding. Extensive experiments demonstrate KinGuard's superior effectiveness, stealth, and resilience against a battery of attacks including fine-tuning, input perturbation, and model merging. Our work establishes knowledge-based embedding as a practical and secure paradigm for model fingerprinting.
- Abstract(参考訳): 大規模言語モデルの知的財産権を保護するには、堅牢なオーナシップ検証が必要である。
しかし、従来のバックドア指紋認証はステルス・ロバストネスのパラドックスに欠陥がある: 堅牢であるためには、これらの手法はモデルに高パープレキシティトリガーに対する固定された応答を記憶させるよう強制するが、このターゲットのオーバーフィッティングは検出可能な統計的アーティファクトを生成する。
このパラドックスをKinGuardによって解決する。KinGuardは、構造化された親族関係の物語の上に構築されたプライベートな知識コーパスを組み込むフレームワークである。
表面的なトリガを記憶する代わりに、モデルはインクリメンタルな事前学習を通じてこの知識を内部化し、その概念的理解を証明することによってオーナシップが検証される。
大規模な実験は、細調整、入力摂動、モデルマージを含む攻撃のバッテリーに対するキンガードの優れた効果、ステルス、レジリエンスを示している。
我々の研究は、モデルフィンガープリントの実用的で安全なパラダイムとして知識ベースの埋め込みを確立している。
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [50.40122190627256]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Backdoor Attack with Invisible Triggers Based on Model Architecture Modification [5.094386595197844]
従来のバックドア攻撃では、トレーニングデータに特定のトリガーで悪意のあるサンプルを注入する。
より高度な攻撃は、モデルのアーキテクチャを直接変更する。
本論文では、新たなバックドア攻撃方法を示す。
モデルアーキテクチャ内にバックドアを埋め込んで,目立たない,ステルス的なトリガを生成する機能を備えている。
論文 参考訳(メタデータ) (2024-12-22T07:39:43Z) - The Great Contradiction Showdown: How Jailbreak and Stealth Wrestle in Vision-Language Models? [23.347349690954452]
VLM(Vision-Language Models)は、様々なタスクにおいて顕著なパフォーマンスを達成したが、Jailbreak攻撃には弱いままである。
これらの攻撃の有効性とステルスネスの基本的なトレードオフを理解するための情報理論の枠組みを提供する。
本研究では,非スティルシージェイルブレイク攻撃を効果的に検出し,モデルロバスト性を大幅に向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-02T11:40:49Z) - Blending adversarial training and representation-conditional purification via aggregation improves adversarial robustness [6.484231366444063]
CARSOは、防御のために考案された適応的なエンドツーエンドのホワイトボックス攻撃から自身を守ることができる。
提案手法は,Cifar-10,Cifar-100,TinyImageNet-200の最先端技術により改善されている。
論文 参考訳(メタデータ) (2023-05-25T09:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。