論文の概要: Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Governance Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.04837v1
- Date: Thu, 05 Mar 2026 05:45:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.091317
- Title: Design Behaviour Codes (DBCs): A Taxonomy-Driven Layered Governance Benchmark for Large Language Models
- Title(参考訳): 設計行動コード(DBC) - 大規模言語モデルのための分類駆動型階層型ガバナンスベンチマーク
- Authors: G. Madan Mohan, Veena Kiran Nambiar, Kiranmayee Janardhan,
- Abstract要約: 我々は、構造化された150の行動管理層の有効性を評価するための最初の実証的なフレームワークである、動的行動制約(DBC)ベンチマークを紹介した。
私たちの3つのアーム制御設計(ベース、ベース、モデレーション、ベース、DBC)は、リスク低減の因果帰属を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Dynamic Behavioral Constraint (DBC) benchmark, the first empirical framework for evaluating the efficacy of a structured, 150-control behavioral governance layer, the MDBC (Madan DBC) system, applied at inference time to large language models (LLMs). Unlike training time alignment methods (RLHF, DPO) or post-hoc content moderation APIs, DBCs constitute a system prompt level governance layer that is model-agnostic, jurisdiction-mappable, and auditable. We evaluate the DBC Framework across a 30 domain risk taxonomy organized into six clusters (Hallucination and Calibration, Bias and Fairness, Malicious Use, Privacy and Data Protection, Robustness and Reliability, and Misalignment Agency) using an agentic red-team protocol with five adversarial attack strategies (Direct, Roleplay, Few-Shot, Hypothetical, Authority Spoof) across 3 model families. Our three-arm controlled design (Base, Base plus Moderation, Base plus DBC) enables causal attribution of risk reduction. Key findings: the DBC layer reduces the aggregate Risk Exposure Rate (RER) from 7.19 percent (Base) to 4.55 percent (Base plus DBC), representing a 36.8 percent relative risk reduction, compared with 0.6 percent for a standard safety moderation prompt. MDBC Adherence Scores improve from 8.6 by 10 (Base) to 8.7 by 10 (Base plus DBC). EU AI Act compliance (automated scoring) reaches 8.5by 10 under the DBC layer. A three judge evaluation ensemble yields Fleiss kappa greater than 0.70 (substantial agreement), validating our automated pipeline. Cluster ablation identifies the Integrity Protection cluster (MDBC 081 099) as delivering the highest per domain risk reduction, while graybox adversarial attacks achieve a DBC Bypass Rate of 4.83 percent . We release the benchmark code, prompt database, and all evaluation artefacts to enable reproducibility and longitudinal tracking as models evolve.
- Abstract(参考訳): 本稿では,大規模言語モデル (LLM) に推論時間で適用した,構造化150制御型行動ガバナンス層であるMDBC (Madan DBC) システムの有効性を評価するための,最初の実証的フレームワークである動的行動制約 (DBC) ベンチマークを紹介する。
トレーニング時間アライメント(RLHF、DPO)やポストホックなコンテンツモデレーションAPIとは異なり、DBCは、モデルに依存しない、司法に適合し、監査可能なシステムプロンプトレベルのガバナンス層を構成する。
我々は,DBCフレームワークを6つのクラスタ(幻覚・校正,バイアス・フェアネス,悪意的使用,プライバシ・データ保護,ロバスト・信頼性,ミスアライメントエージェンシー)に分けて,対戦型攻撃戦略(Direct, Roleplay, Few-Shot, hypothetical, Authority Spoof)を5つ備えたエージェントレッドチームプロトコルを用いて評価した。
私たちの3つのアーム制御設計(ベース、ベース、モデレーション、ベース、DBC)は、リスク低減の因果帰属を可能にする。
主な発見:DBC層は総危険暴露率(RER)を7.19パーセント(Base+DBC)から4.55パーセント(Base+DBC)に下げ、36.8%の相対リスク削減率を示し、標準安全調整プロンプトでは0.6%となっている。
MDBC Adherence Scoresは8.6 x 10 (Base) から8.7 x 10 (Base + DBC) に改善されている。
EU AI Actのコンプライアンス(自動スコア)は、DBC層の下で8.5by 10に達する。
3つの審査員評価アンサンブルは、Fleiss kappaを0.70以上(実質的な合意)にし、自動パイプラインを検証します。
クラスタアブレーションは、インテリティ保護クラスタ(MDBC 081 099)をドメインリスクの低減率当たりの最高値と定義し、グレーボックスの攻撃はDBCバイパス率4.83パーセントに達する。
モデルが進化するにつれて、再現性と縦方向の追跡を可能にするため、ベンチマークコード、プロンプトデータベース、およびすべての評価成果物をリリースする。
関連論文リスト
- Are Aligned Large Language Models Still Misaligned? [13.062124372682106]
Mis-Align Bench は、安全性、価値、文化的側面の相違を分析するための統一されたベンチマークである。
SAVACUは、112のドメイン(またはラベル)にまたがる382,424のミスアライメントデータセットである。
論文 参考訳(メタデータ) (2026-02-11T19:30:43Z) - Distributional Reinforcement Learning with Diffusion Bridge Critics [57.70134665595571]
拡散橋批判(DBC)を用いた分散強化学習手法を提案する。
DBCはQ値の逆累積分布関数(CDF)を直接モデル化する。
我々はDBCにおける離散化誤差に対処する解析積分式を導出する。
論文 参考訳(メタデータ) (2026-02-05T15:40:14Z) - Chunking, Retrieval, and Re-ranking: An Empirical Evaluation of RAG Architectures for Policy Document Question Answering [0.0]
大規模言語モデル(LLM)の公衆衛生政策分野への統合は、疾病管理予防センター(CDC)などの機関が管理する規制ガイダンスの膨大なリポジトリをナビゲートするための変革的なアプローチを提供する。
LLMが幻覚を発生させることの正当性は、情報整合性が不可能なハイテイク環境において、これらの技術を採用する上で重要な障壁となる。
この経験的評価は、信頼できる文書コンテキストにおける生成出力を基盤として、これらのリスクを軽減するために、検索型拡張生成(RAG)アーキテクチャの有効性を探求するものである。
論文 参考訳(メタデータ) (2026-01-21T20:52:48Z) - What Matters For Safety Alignment? [38.86339753409445]
本稿では,AIシステムの安全アライメント能力に関する総合的研究について述べる。
本研究では,6つの重要な内在モデル特性と3つの外部攻撃手法の影響を系統的に検討し,比較した。
LRMs GPT-OSS-20B, Qwen3-Next-80B-A3B-Thinking, GPT-OSS-120Bを最も安全な3つのモデルとして同定した。
論文 参考訳(メタデータ) (2026-01-07T12:31:52Z) - Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness [27.956005890869267]
コンピュータ・ユース・エージェント(CUA)がBGD(Blind Goal-Directedness)を一貫して表示することを示す。
BGDは、実現可能性、安全性、信頼性、コンテキストに関わらず、目標を追求するバイアスである。
これら3つのパターンをキャプチャする90のタスクのベンチマークであるBLIND-ACTを開発した。
論文 参考訳(メタデータ) (2025-10-02T04:52:15Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Offline Behavior Distillation [57.6900189406964]
大規模な強化学習(RL)データは通常、インタラクションを必要とせずにポリシをオフラインにトレーニングするために収集される。
準最適RLデータから限られた専門家の行動データを合成するオフライン行動蒸留(OBD)を定式化する。
そこで本研究では, 蒸留データとオフラインデータ, ほぼ専門的ポリシーのいずれにおいても, 蒸留性能を判断的差異によって測定する2つの単純OBD目標であるDBCとPBCを提案する。
論文 参考訳(メタデータ) (2024-10-30T06:28:09Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z) - Improved Certified Defenses against Data Poisoning with (Deterministic)
Finite Aggregation [122.83280749890078]
本報告では, 一般中毒に対する予防的対策として, フィニット・アグリゲーション(Finite Aggregation)を提案する。
トレーニングセットを直接非結合部分集合に分割するDPAとは対照的に、我々の方法はまず、トレーニングセットをより小さな非結合部分集合に分割する。
我々は、決定論的および集約的認証された防御設計をブリッジして、我々の方法の代替的な見解を提供する。
論文 参考訳(メタデータ) (2022-02-05T20:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。