論文の概要: DynaGuard: A Dynamic Guardrail Model With User-Defined Policies
- arxiv url: http://arxiv.org/abs/2509.02563v1
- Date: Tue, 02 Sep 2025 17:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.138467
- Title: DynaGuard: A Dynamic Guardrail Model With User-Defined Policies
- Title(参考訳): DynaGuard: ユーザ定義ポリシを備えた動的ガードレールモデル
- Authors: Monte Hoover, Vatsal Baherwani, Neel Jain, Khalid Saifullah, Joseph Vincent, Chirag Jain, Melissa Kazemi Rad, C. Bayan Bruss, Ashwinee Panda, Tom Goldstein,
- Abstract要約: ユーザ定義ポリシーに基づいてテキストを評価する動的ガーディアンモデルを提案する。
私たちのモデルは、ポリシー違反の迅速な検出や、モデルのアウトプットを明確化し正当化する連鎖推論に使用できます。
- 参考スコア(独自算出の注目度): 40.64329012106925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Guardian models are used to supervise and moderate the outputs of user-facing chatbots, enforcing guardrails and detecting bad behaviors. Standard guardian models like LlamaGuard detect predefined, static categories of harms. We propose dynamic guardian models that evaluate text based on user-defined policies, making them useful for different application domains that are not addressed by standard guardian models. Our dynamic guardian models can be used for fast detection of policy violations or with chain-of-thought reasoning that articulates and justifies the model outputs. Our dynamic guardian models match static models in detection accuracy for static harm categories while identifying violations of free-form policies with accuracy comparable to frontier reasoning models in a fraction of the time.
- Abstract(参考訳): ガーディアンモデルは、ユーザー向けチャットボットのアウトプットを監視・調整し、ガードレールを強制し、悪い振る舞いを検出するために使用される。
LlamaGuardのような標準の保護モデルは、事前に定義された静的な害のカテゴリを検出する。
本稿では,ユーザ定義ポリシーに基づいてテキストを評価する動的ガーディアンモデルを提案する。
私たちの動的保護モデルは、ポリシー違反の迅速な検出や、モデルのアウトプットを明確化し正当化する連鎖推論に使用できます。
我々の動的ガーディアンモデルは、静的害カテゴリーの検出精度において静的モデルと一致し、一方、フロンティア推論モデルに匹敵する精度で自由形式のポリシー違反を識別する。
関連論文リスト
- SpecEval: Evaluating Model Adherence to Behavior Specifications [63.13000010340958]
提供者仕様に対してモデルを監査する自動化フレームワークを導入します。
私たちの中心となる焦点は、プロバイダ仕様とモデルアウトプット、および審査員としての自身のモデルの間の3つの方法の整合性にあります。
当社のフレームワークは、100以上の行動ステートメントにわたる6人の開発者から16のモデルに適用し、プロバイダ間で最大20%のコンプライアンスギャップを含む、体系的な不整合を見つけました。
論文 参考訳(メタデータ) (2025-09-02T16:18:40Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [14.779177849006963]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Unidentified and Confounded? Understanding Two-Tower Models for Unbiased Learning to Rank [50.9530591265324]
良好な性能のプロダクションシステムによって収集されたクリックで2towerモデルをトレーニングすると、ランキング性能が低下する。
理論的には、2towerモデルの識別可能性条件を解析し、クリックからモデルパラメータを復元するために、文書の入れ替わりや重複する特徴分布が必要であることを示す。
また,ログポリシが2towerモデルに与える影響についても検討し,モデルがユーザの動作を完全に捉えている場合,バイアスが発生しないことを見出した。
論文 参考訳(メタデータ) (2025-06-25T14:47:43Z) - Embedding Hidden Adversarial Capabilities in Pre-Trained Diffusion Models [1.534667887016089]
我々は,極細調整による拡散モデルに直接,隠れた敵の能力を組み込む新たな攻撃パラダイムを導入する。
得られた改ざんされたモデルは、原画像と区別できない高品質な画像を生成する。
当社のアプローチの有効性とステルス性を実証し、新たなセキュリティ上の懸念を生じさせる隠蔽攻撃ベクトルを明らかにする。
論文 参考訳(メタデータ) (2025-04-05T12:51:36Z) - Model-Guardian: Protecting against Data-Free Model Stealing Using Gradient Representations and Deceptive Predictions [5.6731655991880965]
モデル盗難は、クラウドにデプロイされた機械学習モデルの機密性をますます脅かしている。
本稿では,Model-Guardianという新しい防衛フレームワークを紹介する。
合成試料のアーティファクト特性と試料の勾配表現の助けを借りて、現在の防御の欠点に対処するように設計されている。
論文 参考訳(メタデータ) (2025-03-23T14:14:36Z) - How to Backdoor Consistency Models? [10.977907906989342]
バックドア攻撃に対する一貫性モデルの脆弱性に関する最初の研究を行う。
提案フレームワークは,バックドア攻撃に対する一貫性モデルの脆弱性を実証する。
我々のフレームワークは、高い実用性と特異性を維持しながら、一貫性モデルの妥協に成功した。
論文 参考訳(メタデータ) (2024-10-14T22:25:06Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Model Stealing Attack against Recommender System [85.1927483219819]
いくつかの敵攻撃は、レコメンデーターシステムに対するモデル盗難攻撃を成し遂げた。
本稿では、利用可能なターゲットデータとクエリの量を制限し、対象データとセットされたアイテムを共有する補助データを活用して、モデル盗難攻撃を促進する。
論文 参考訳(メタデータ) (2023-12-18T05:28:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。