論文の概要: Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation
- arxiv url: http://arxiv.org/abs/2605.28597v1
- Date: Wed, 27 May 2026 15:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.150456
- Title: Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation
- Title(参考訳): ポジション:「ポジティブなバックドア」ラベルを廃止 -- 秘密のアライメントは厳密で体系的な評価を必要とする
- Authors: Jianwei Li, Jung-Eun Kim,
- Abstract要約: このポジションペーパーは、AI/MLコミュニティは「肯定的なバックドア」というラベルを誇張し、廃止するのをやめるべきであると主張している。
トリガーアクティベートされた隠された振る舞いはシークレットアライメントとして扱われるべきである、と氏は主張する。
- 参考スコア(独自算出の注目度): 15.215130286922564
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This position paper argues that the AI/ML community should stop overclaiming and retire the label "positive backdoor," and instead treat trigger-activated hidden behaviors as Secret Alignment. Crucially, protective claims based on Secret Alignment should be presumed not secure by default unless supported by rigorous, standardized evaluation. The Private AI era, enabled by open-weight LLMs and accessible training/inference stacks, turns language models into privately owned digital assets, creating security concerns around unauthorized access, model theft, and behavioral misuse. Recently, a line of work framed as "positive backdoors" has been proposed to address these challenges. To ground our position in evidence, we unify these proposals as covert trigger-behavior associations for access gating, ownership attribution, and safety enforcement, and evaluate three representative applications across six core properties: effectiveness, harmlessness, persistence, efficiency, robustness, and reliability. Our results reveal substantial brittleness - especially in the confidentiality, integrity, and availability (CIA) - of trigger-behavior mappings often underrepresented by existing claims. We further relate these outcomes to behavior density and decision complexity, offering a behavioral lens for understanding deployment-time risks and motivating community-wide evaluation that makes Secret Alignment claims provable.
- Abstract(参考訳): このポジションペーパーでは、AI/MLコミュニティは“ポジティブなバックドア”というラベルを誇張し、廃止するのをやめ、代わりにトリガー活性化された隠された振る舞いをシークレットアライメントとして扱うべきだと論じている。
重要なことは、厳格で標準化された評価に支えられない限り、シークレットアライメントに基づく保護的クレームは、デフォルトでは安全でないと仮定されるべきである。
オープンウェイトなLLMとアクセス可能なトレーニング/推論スタックによって実現されたPrivate AI時代は、言語モデルをプライベートなデジタル資産に転換し、不正アクセス、モデル盗難、行動誤用に関するセキュリティ上の懸念を生じさせる。
近年,これらの課題に対処するために,「肯定的なバックドア」と呼ばれる一連の作業が提案されている。
根拠として,これらの提案を,アクセスゲーティング,オーナシップ属性,安全実施のための秘密のトリガー行動アソシエーションとして統一し,有効性,無害性,持続性,効率性,堅牢性,信頼性の6つのコア特性にまたがる代表的アプリケーションの評価を行う。
我々の結果は、特に機密性、完全性、可用性(CIA)において、既存のクレームでしばしば表現されていないトリガービヘイビアマッピングの重大な脆さを明らかにします。
さらに、これらの成果を行動密度と意思決定の複雑さに関連付け、デプロイメント時のリスクを理解し、シークレット・アライメント(Secret Alignment)の主張を証明可能なコミュニティ全体の評価を動機付ける行動レンズを提供する。
関連論文リスト
- AgentSecBench: Measuring Prompt Injection, Privacy Leakage, and Tool-Use Integrity in LLM Agents [0.2864713389096699]
本稿では,AgentSecBenchを,この問題に対する正式なセキュリティフレームワークの実証的なインスタンス化として紹介する。
3つのゲーム・インストラクション・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス(英語版)を定めている。
これは、承認された観察と能力に対するプロジェクションとしてのアプリケーションポリシーを表し、プロジェクションの即時アノテーションとプロジェクションの強化を区別し、敵のアドバンテージと、防衛が生成前に関連するモデル可視チャネルを閉鎖するかどうかを計測する。
論文 参考訳(メタデータ) (2026-05-25T18:53:22Z) - Secret Stealing Attacks on Local LLM Fine-Tuning through Supply-Chain Model Code Backdoors [9.503673758168693]
ローカルな微調整データセットは、APIキーや個人識別子、財務記録など、機密性の高いシークレットを常用する。
私たちは、実用的だが見過ごされたサプライチェーンベクターを使用します -- 標準アーキテクチャ定義としてキャモフラージュされたモデルコードです。
オンラインテンソルルールマッチングによる動的計算フローにおいてトークンレベルのシークレットにロックする決定論的フルチェーン機構を導入する。
論文 参考訳(メタデータ) (2026-04-30T05:03:08Z) - When Personalization Legitimizes Risks: Uncovering Safety Vulnerabilities in Personalized Dialogue Agents [49.341830745910194]
本稿では,パーソナライズされたエージェントの安全性障害である意図的正当性を明らかにする。
我々の研究は、安全障害モードとしての意図的正当性の最初の体系的な調査と評価を提供する。
論文 参考訳(メタデータ) (2026-01-25T15:42:01Z) - Beyond Jailbreaking: Auditing Contextual Privacy in LLM Agents [43.303548143175256]
本研究では,リスクに対するエージェントの感受性を定量的に評価する,会話プライバシのための監査フレームワークを提案する。
CMPL(Conversational Manipulation for Privacy Leakage)フレームワークは、厳格なプライバシー命令を強制するエージェントをストレステストするために設計されている。
論文 参考訳(メタデータ) (2025-06-11T20:47:37Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。