論文の概要: DynaGuard: A Dynamic Guardian Model With User-Defined Policies
- arxiv url: http://arxiv.org/abs/2509.02563v3
- Date: Mon, 06 Oct 2025 20:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 13:19:51.417325
- Title: DynaGuard: A Dynamic Guardian Model With User-Defined Policies
- Title(参考訳): DynaGuard: ユーザ定義ポリシーを備えた動的ガーディアンモデル
- Authors: Monte Hoover, Vatsal Baherwani, Neel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein,
- Abstract要約: 我々はDynaGuardを紹介した。DynaGuardは、ユーザ定義ポリシーに基づいてテキストを評価することによって、新しい柔軟性を提供する動的ガーディアンモデルのスイートである。
弊社のモデルは、ポリシー違反の迅速検出と、モデルのアウトプットを明確化し正当化する連鎖推論オプションの両方を提供する。
- 参考スコア(独自算出の注目度): 40.64329012106925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guardian models play a crucial role in ensuring the safety and ethical behavior of user-facing AI applications by enforcing guardrails and detecting harmful content. While standard guardian models are limited to predefined, static harm categories, we introduce DynaGuard, a suite of dynamic guardian models offering novel flexibility by evaluating text based on user-defined policies, and DynaBench, a dataset for training and evaluating dynamic guardian models. Our models provide both rapid detection of policy violations and a chain-of-thought reasoning option that articulate and justify model outputs. Critically, DynaGuard not only surpasses static models in detection accuracy on traditional safety categories, but is competitive with frontier reasoning models on free-form policy violations, all in a fraction of the time. This makes DynaGuard an critical tool for language model guardrails.
- Abstract(参考訳): ガーディアンモデルは、ガードレールを強制し有害なコンテンツを検出することによって、ユーザー向けAIアプリケーションの安全性と倫理的行動を保証する上で重要な役割を果たす。
標準のガーディアンモデルは、事前に定義された静的なハーネスカテゴリに限定されていますが、ユーザ定義ポリシーに基づいたテキスト評価による新しい柔軟性を提供する動的ガーディアンモデルのスイートであるDynaGuardと、動的ガーディアンモデルのトレーニングと評価のためのデータセットであるDynaBenchを紹介します。
弊社のモデルは、ポリシー違反の迅速検出と、モデルのアウトプットを明確化し正当化する連鎖推論オプションの両方を提供する。
批判的に言えば、DynaGuardは従来の安全カテゴリーにおける検出精度において静的モデルを上回るだけでなく、フリーフォームポリシー違反に関するフロンティア推論モデルと競合する。
これによってDynaGuardは、言語モデルガードレールにとって重要なツールとなる。
関連論文リスト
- SpecEval: Evaluating Model Adherence to Behavior Specifications [63.13000010340958]
提供者仕様に対してモデルを監査する自動化フレームワークを導入します。
私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。
当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
論文 参考訳(メタデータ) (2025-09-02T16:18:40Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [14.779177849006963]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Unidentified and Confounded? Understanding Two-Tower Models for Unbiased Learning to Rank [50.9530591265324]
良好な性能のプロダクションシステムによって収集されたクリックで2towerモデルをトレーニングすると、ランキング性能が低下する。
理論的には、2towerモデルの識別可能性条件を解析し、クリックからモデルパラメータを復元するために、文書の入れ替わりや重複する特徴分布が必要であることを示す。
また,ログポリシが2towerモデルに与える影響についても検討し,モデルがユーザの動作を完全に捉えている場合,バイアスが発生しないことを見出した。
論文 参考訳(メタデータ) (2025-06-25T14:47:43Z) - Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - Model-Guardian: Protecting against Data-Free Model Stealing Using Gradient Representations and Deceptive Predictions [5.6731655991880965]
モデル盗難は、クラウドにデプロイされた機械学習モデルの機密性をますます脅かしている。
本稿では,Model-Guardianという新しい防衛フレームワークを紹介する。
合成試料のアーティファクト特性と試料の勾配表現の助けを借りて、現在の防御の欠点に対処するように設計されている。
論文 参考訳(メタデータ) (2025-03-23T14:14:36Z) - How to Backdoor Consistency Models? [10.977907906989342]
バックドア攻撃に対する一貫性モデルの脆弱性に関する最初の研究を行う。
提案フレームワークは,バックドア攻撃に対する一貫性モデルの脆弱性を実証する。
我々のフレームワークは、高い実用性と特異性を維持しながら、一貫性モデルの妥協に成功した。
論文 参考訳(メタデータ) (2024-10-14T22:25:06Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Model Stealing Attack against Recommender System [85.1927483219819]
いくつかの敵攻撃は、レコメンデーターシステムに対するモデル盗難攻撃を成し遂げた。
本稿では、利用可能なターゲットデータとクエリの量を制限し、対象データとセットされたアイテムを共有する補助データを活用して、モデル盗難攻撃を促進する。
論文 参考訳(メタデータ) (2023-12-18T05:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。