論文の概要: Mechanical Enforcement for LLM Governance:Evidence of Governance-Task Decoupling in Financial Decision Systems
- arxiv url: http://arxiv.org/abs/2605.14744v1
- Date: Thu, 14 May 2026 12:12:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.808978
- Title: Mechanical Enforcement for LLM Governance:Evidence of Governance-Task Decoupling in Financial Decision Systems
- Title(参考訳): LLMガバナンスのためのメカニカルエンハンスメント:金融決定システムにおけるガバナンス-タスクデカップリングの証拠
- Authors: José Manuel de la Chica Rodríguez, Carlos Martí-González,
- Abstract要約: 既存の評価はタスクの正確さを測るが、ガバナンスが意思決定の合理化レベルでの振る舞いを制約するかどうかは問わない。
政策コンプライアンスを合理的なレベルで定量化する5つのガバナンス指標を紹介します。
構造的なストレスの下では、テキストのみのガバナンスは両方の次元で同時に低下するのに対して、機械的な執行はタスクのパフォーマンスが低下してもガバナンスの品質を保っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models in regulated financial workflows are governed by natural-language policies that the same model interprets, creating a principal--agent failure: outputs can appear compliant without being compliant. Existing evaluation measures task accuracy but not whether governance constrains behaviour at the decision rationale level -- where regulated decisions must be auditable. We introduce five governance metrics that quantify policy compliance at the rationale level and apply them in a synthetic banking domain to compare text-only governance against mechanical enforcement: four primitives operating outside the model's interpretive loop. Under text-only governance, 27% of deferrals carry no decision-relevant information. Mechanical enforcement reduces this rate by 73%, more than doubles deferral information content, and raises task accuracy from MCC~$0.43$ to $0.88$. The improvement is driven by architectural separation: LLM-generated rationales under mechanical enforcement show comparable CDL to text-only governance -- the gain comes from removing clear-cut decisions from the model's control. A causal ablation confirms that each primitive is individually necessary. Our central finding is a governance-task decoupling: under structural stress, text-only governance degrades on both dimensions simultaneously, whereas mechanical enforcement preserves governance quality even as task performance drops. This implies that governance and task evaluation are distinct axes: accuracy is not a sufficient proxy for governance in regulated AI systems.
- Abstract(参考訳): 規制された金融ワークフローにおける大きな言語モデルは、同じモデルが解釈し、プリンシパル・エージェントの失敗を生成する自然言語ポリシーによって管理されている。アウトプットは、コンプライアンスを伴わずに準拠するように見える。既存の評価は、タスクの正確さを計測するが、規制された決定は監査可能でなければならない。
我々は、合理的なレベルでポリシーコンプライアンスを定量化する5つのガバナンス指標を導入し、それらを合成バンキングドメインに適用して、機械的実施に対するテキストのみのガバナンスを比較する。
テキストのみのガバナンスでは、デリルの27%が決定に関連する情報を持っていない。
機械執行機関は、このレートを73%減らし、遅延情報量を2倍以上にし、タスク精度をMCC~0.43$から0.88$に上げる。
機械的強制の下でLCMが生成する合理性は、テキストのみのガバナンスに匹敵するCDLを示します。
因果的アブレーションは、それぞれのプリミティブが個別に必要であることを示す。
構造的ストレスの下では、テキストのみのガバナンスは両方の次元で同時に低下します。
正確性は、規制されたAIシステムにおけるガバナンスの十分なプロキシではありません。
関連論文リスト
- Think Before You Act -- A Neurocognitive Governance Model for Autonomous AI Agents [4.064061517379954]
企業、医療、安全に重要な環境に自律的なAIエージェントが急速に展開したことで、基本的なガバナンスギャップが生まれている。
我々は、人間がどのように自然に自己統治するか、つまり行動する前に、人間が実行機能に基づく意図的な認知プロセスに従事しているかについて、このギャップに対処する。
本稿では、この人間の自己統治プロセスをエージェント推論に正式にマッピングする神経認知的ガバナンスフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T14:15:20Z) - PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - Governed Reasoning for Institutional AI [0.0]
認知コア(Cognitive Core)は、9種類の認知プリミティブから構築された決定基盤である。
ヒューマンレビューは、ポストホックチェックではなく実行条件である。
我々は、11ケースの事前承認控訴評価セットで3つのシステムをベンチマークした。
論文 参考訳(メタデータ) (2026-04-12T14:09:18Z) - I Can't Believe It's Corrupt: Evaluating Corruption in Multi-Agent Governance Systems [8.670200461690454]
機関的AIの完全性は、デプロイ後仮定ではなく、デプロイ前要件として扱われるべきであることを示す。
エージェントが異なる権限構造の下で正式な政府の役割を担っているマルチエージェントガバナンスシミュレーションを評価した。
28,112個の転写セグメントにまたがる独立系裁判官によるルールブレーキングと乱用の結果を収集する。
論文 参考訳(メタデータ) (2026-03-19T13:34:54Z) - When Should a Robot Think? Resource-Aware Reasoning via Reinforcement Learning for Embodied Robotic Decision-Making [68.12864562049957]
身体ロボットシステムは、高レベルの推論をサポートするために、大規模言語モデル(LLM)ベースのエージェントにますます依存している。
エージェントはいつ、いつ、いつ行動すべきか?
本稿では,エンボディエージェントのリソース・アウェア・オーケストレーションのための階層的なフレームワークであるRARRL(Resource-Aware Reasoning via Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2026-03-17T15:38:50Z) - The Controllability Trap: A Governance Framework for Military AI Agents [0.0]
我々はエージェント軍事AIガバナンスフレームワーク(AMAGF)を提案する。
AMAGFは、予防的ガバナンス、予防的ガバナンス、矯正的ガバナンスの3つの柱を中心に構成された測定可能なアーキテクチャである。
制御品質スコア(英: Control Quality Score, CQS)は、人間の制御を定量化し、制御が弱まるにつれて累積応答を可能にする複合リアルタイムメトリックである。
論文 参考訳(メタデータ) (2026-03-03T20:48:01Z) - Administrative Law's Fourth Settlement: AI and the Capability-Accountability Trap [0.0]
1887年以降、行政法は「能力と責任の罠」をナビゲートしてきた。
本条では,この可能性を実現するために行政法における教義改革を3つ提案する。
論文 参考訳(メタデータ) (2026-02-10T11:36:01Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Media and responsible AI governance: a game-theoretic and LLM analysis [61.132523071109354]
本稿では,信頼できるAIシステムを育成する上での,AI開発者,規制当局,ユーザ,メディア間の相互作用について検討する。
進化的ゲーム理論と大言語モデル(LLM)を用いて、異なる規制体制下でこれらのアクター間の戦略的相互作用をモデル化する。
論文 参考訳(メタデータ) (2025-03-12T21:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。