論文の概要: DynaGuard: A Dynamic Guardian Model With User-Defined Policies
- arxiv url: http://arxiv.org/abs/2509.02563v3
- Date: Mon, 06 Oct 2025 20:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.417325
- Title: DynaGuard: A Dynamic Guardian Model With User-Defined Policies
- Title(参考訳): DynaGuard: ユーザ定義ポリシーを備えた動的ガーディアンモデル
- Authors: Monte Hoover, Vatsal Baherwani, Neel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein,
- Abstract要約: 我々はDynaGuardを紹介した。DynaGuardは、ユーザ定義ポリシーに基づいてテキストを評価することによって、新しい柔軟性を提供する動的ガーディアンモデルのスイートである。
弊社のモデルは、ポリシー違反の迅速検出と、モデルのアウトプットを明確化し正当化する連鎖推論オプションの両方を提供する。
- 参考スコア(独自算出の注目度): 40.64329012106925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guardian models play a crucial role in ensuring the safety and ethical behavior of user-facing AI applications by enforcing guardrails and detecting harmful content. While standard guardian models are limited to predefined, static harm categories, we introduce DynaGuard, a suite of dynamic guardian models offering novel flexibility by evaluating text based on user-defined policies, and DynaBench, a dataset for training and evaluating dynamic guardian models. Our models provide both rapid detection of policy violations and a chain-of-thought reasoning option that articulate and justify model outputs. Critically, DynaGuard not only surpasses static models in detection accuracy on traditional safety categories, but is competitive with frontier reasoning models on free-form policy violations, all in a fraction of the time. This makes DynaGuard an critical tool for language model guardrails.
- Abstract(参考訳): ガーディアンモデルは、ガードレールを強制し有害なコンテンツを検出することによって、ユーザー向けAIアプリケーションの安全性と倫理的行動を保証する上で重要な役割を果たす。
標準のガーディアンモデルは、事前に定義された静的なハーネスカテゴリに限定されていますが、ユーザ定義ポリシーに基づいたテキスト評価による新しい柔軟性を提供する動的ガーディアンモデルのスイートであるDynaGuardと、動的ガーディアンモデルのトレーニングと評価のためのデータセットであるDynaBenchを紹介します。
弊社のモデルは、ポリシー違反の迅速検出と、モデルのアウトプットを明確化し正当化する連鎖推論オプションの両方を提供する。
批判的に言えば、DynaGuardは従来の安全カテゴリーにおける検出精度において静的モデルを上回るだけでなく、フリーフォームポリシー違反に関するフロンティア推論モデルと競合する。
これによってDynaGuardは、言語モデルガードレールにとって重要なツールとなる。
関連論文リスト
- Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - LoRA as Oracle [4.268422949754082]
低ランク適応モジュールをバックドア検出とメンバシップ推論のための軽量でモデルに依存しないプローブとして活用する,LoRAベースの新しいオラクルフレームワークを提案する。
その結果, 汚染された試料は, クリーンデータや非メンバーデータと大きく異なる, 顕著な低ランク更新を誘導することがわかった。
これらの信号は単純なランキングとエネルギーベース統計を用いて測定することができ、元のトレーニングデータにアクセスしたり、デプロイされたモデルを変更することなく、信頼性の高い推論を可能にする。
論文 参考訳(メタデータ) (2026-01-16T11:32:32Z) - AprielGuard [2.3704817495377526]
既存のツールは、安全性のリスクを別の問題として扱い、堅牢性と一般化性を制限する。
AprielGuardは8Bパラメータ保護モデルで、これらの次元を単一の分類と学習フレームワークに統合する。
AprielGuardは有害なコンテンツの検出と敵の操作において高い性能を達成する。
論文 参考訳(メタデータ) (2025-12-23T12:01:32Z) - SpecEval: Evaluating Model Adherence to Behavior Specifications [63.13000010340958]
提供者仕様に対してモデルを監査する自動化フレームワークを導入します。
私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。
当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
論文 参考訳(メタデータ) (2025-09-02T16:18:40Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [14.779177849006963]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Unidentified and Confounded? Understanding Two-Tower Models for Unbiased Learning to Rank [50.9530591265324]
良好な性能のプロダクションシステムによって収集されたクリックで2towerモデルをトレーニングすると、ランキング性能が低下する。
理論的には、2towerモデルの識別可能性条件を解析し、クリックからモデルパラメータを復元するために、文書の入れ替わりや重複する特徴分布が必要であることを示す。
また,ログポリシが2towerモデルに与える影響についても検討し,モデルがユーザの動作を完全に捉えている場合,バイアスが発生しないことを見出した。
論文 参考訳(メタデータ) (2025-06-25T14:47:43Z) - RADEP: A Resilient Adaptive Defense Framework Against Model Extraction Attacks [6.6680585862156105]
モデル抽出攻撃防御(RADEP)のためのレジリエント・アダプティブ・ディフェンス・フレームワークについて紹介する。
RADEPは、抽出の試みに対するモデルレジリエンスを高めるために、プログレッシブ・逆行訓練を採用している。
オーナーシップ検証は、組み込みのウォーターマーキングとバックドアトリガーを通じて実施される。
論文 参考訳(メタデータ) (2025-05-25T23:28:05Z) - Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - Model-Guardian: Protecting against Data-Free Model Stealing Using Gradient Representations and Deceptive Predictions [5.6731655991880965]
モデル盗難は、クラウドにデプロイされた機械学習モデルの機密性をますます脅かしている。
本稿では,Model-Guardianという新しい防衛フレームワークを紹介する。
合成試料のアーティファクト特性と試料の勾配表現の助けを借りて、現在の防御の欠点に対処するように設計されている。
論文 参考訳(メタデータ) (2025-03-23T14:14:36Z) - DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing [62.43110639295449]
大きな言語モデル(LLM)は意思決定に広く適用されているが、そのデプロイはJailbreak攻撃によって脅かされている。
Delmanは、jailbreak攻撃に対する厳密でダイナミックな保護のために、直接モデル編集を活用する新しいアプローチである。
Delman氏は、モデルの有用性を維持しながら有害な振る舞いを中和するために、関連するパラメータの最小セットを直接更新する。
論文 参考訳(メタデータ) (2025-02-17T10:39:21Z) - How to Backdoor Consistency Models? [10.977907906989342]
バックドア攻撃に対する一貫性モデルの脆弱性に関する最初の研究を行う。
提案フレームワークは,バックドア攻撃に対する一貫性モデルの脆弱性を実証する。
我々のフレームワークは、高い実用性と特異性を維持しながら、一貫性モデルの妥協に成功した。
論文 参考訳(メタデータ) (2024-10-14T22:25:06Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Model Stealing Attack against Recommender System [85.1927483219819]
いくつかの敵攻撃は、レコメンデーターシステムに対するモデル盗難攻撃を成し遂げた。
本稿では、利用可能なターゲットデータとクエリの量を制限し、対象データとセットされたアイテムを共有する補助データを活用して、モデル盗難攻撃を促進する。
論文 参考訳(メタデータ) (2023-12-18T05:28:02Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z) - MOVE: Effective and Harmless Ownership Verification via Embedded External Features [104.97541464349581]
本稿では,異なる種類のモデル盗難を同時に防ぐために,効果的かつ無害なモデル所有者認証(MOVE)を提案する。
我々は、疑わしいモデルがディフェンダー特定外部特徴の知識を含むかどうかを検証し、所有権検証を行う。
次に、メタ分類器をトレーニングして、モデルが被害者から盗まれたかどうかを判断します。
論文 参考訳(メタデータ) (2022-08-04T02:22:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。