論文の概要: Four-Axis Decision Alignment for Long-Horizon Enterprise AI Agents
- arxiv url: http://arxiv.org/abs/2604.19457v1
- Date: Tue, 21 Apr 2026 13:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.787998
- Title: Four-Axis Decision Alignment for Long-Horizon Enterprise AI Agents
- Title(参考訳): 長期型エンタープライズAIエージェントのための4軸決定アライメント
- Authors: Vasundra Srininvasan,
- Abstract要約: 長期のエンタープライズエージェントは、失われた記憶、多段階の推論、および規制の制約の下で高い評価を下す。
長距離決定行動は、4つの軸に分解され、それぞれ独立に測定可能で、フェール可能となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Long-horizon enterprise agents make high-stakes decisions (loan underwriting, claims adjudication, clinical review, prior authorization) under lossy memory, multi-step reasoning, and binding regulatory constraints. Current evaluation reports a single task-success scalar that conflates distinct failure modes and hides whether an agent is aligned with the standards its deployment environment requires. We propose that long-horizon decision behavior decomposes into four orthogonal alignment axes, each independently measurable and failable: factual precision (FRP), reasoning coherence (RCS), compliance reconstruction (CRR), and calibrated abstention (CAR). CRR is a novel regulatory-grounded axis; CAR is a measurement axis separating coverage from accuracy. We exercise the decomposition on a controlled benchmark (LongHorizon-Bench) covering loan qualification and insurance claims adjudication with deterministic ground-truth construction. Running six memory architectures, we find structure aggregate accuracy cannot see: retrieval collapses on factual precision; schema-anchored architectures pay a scaffolding tax; plain summarization under a fact-preservation prompt is a strong baseline on FRP, RCS, EDA, and CRR; and all six architectures commit on every case, exposing a decisional-alignment axis the field has not targeted. The decomposition also surfaced a pre-registered prediction of our own, that summarization would fail factual recall, which the data reversed at large magnitude, an axis-level reversal aggregate accuracy would have hidden. Institutional alignment (regulatory reconstruction) and decisional alignment (calibrated abstention) are under-represented in the alignment literature and become load-bearing once decisions leave the laboratory. The framework transfers to any regulated decisioning domain via two steps: build a fact schema, and calibrate the CRR auditor prompt.
- Abstract(参考訳): ロングホライゾンのエンタープライズエージェントは、失われた記憶、多段階の推論、および規制の制約の下で、高い評価(ローンの引受、請求書の提出、臨床レビュー、事前認可)を行う。
現在の評価では、個別の障害モードを混同し、エージェントがそのデプロイメント環境が要求する標準に適合しているかどうかを隠蔽する単一のタスクのスカラーが報告されている。
長軸決定動作は4つの直交アライメント軸に分解され,それぞれ独立に測定可能かつフェール可能であることが示唆された: 実測精度(FRP), 推論コヒーレンス(RCS), コンプライアンス再構成(CRR), 校正吸収(CAR)。
CRRは、新しい規制下地軸であり、CARは、カバレッジを精度から分離した測定軸である。
本研究は、貸付資格と保険請求を決定論的基盤構造で規定した基準(LongHorizon-Bench)の分解を行う。
6つのメモリアーキテクチャを実行すると、構造集約の正確さは見つからない: 検索は事実精度で崩壊する; スキーマアンコールされたアーキテクチャは足場税を支払う; ファクト保存プロンプトによるプレーンな要約はFRP、RCS、EDA、CRRの強力なベースラインであり、全ての6つのアーキテクチャが全てのケースにコミットし、フィールドが目標としていない決定的アライメント軸を明らかにする。
この分解によって、事前に登録された我々の予測が表れ、要約は事実のリコールに失敗し、そのデータが大規模に逆転し、軸レベルの逆アグリゲーション精度が隠された。
このアライメント文献では、制度的アライメント(規制的再構築)と決定的アライメント(校正的棄権)が不足しており、その決定が実験室を離れると負荷に耐えられるようになる。
フレームワークは、ファクトスキーマを構築し、CRR監査プロンプトを校正する、2つのステップを通じて、規制された決定ドメインに転送する。
関連論文リスト
- RCBSF: A Multi-Agent Framework for Automated Contract Revision via Stackelberg Game [5.711356514732554]
本稿では,非協調ゲームとしてリビジョンを定式化するリスク制約付きバイレベルスタックバーグフレームワーク(RCBSF)を提案する。
この二段階の定式化が収束して、誘導されていない構成よりも厳密に優れた効用が得られるという理論的保証を提供する。
論文 参考訳(メタデータ) (2026-04-12T17:27:55Z) - Governed Reasoning for Institutional AI [0.0]
認知コア(Cognitive Core)は、9種類の認知プリミティブから構築された決定基盤である。
ヒューマンレビューは、ポストホックチェックではなく実行条件である。
我々は、11ケースの事前承認控訴評価セットで3つのシステムをベンチマークした。
論文 参考訳(メタデータ) (2026-04-12T14:09:18Z) - DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding [59.16244104797919]
本稿では,リスク制約付き復号法(DARC)*による分散アライメント(Disagreement-Aware Alignment)を提案する。
DARCは応答選択を、分布的に堅牢で、リスクに敏感な意思決定として捉えている。
アライメントベンチマークの実験では、DARCは競合平均品質を維持しながら、不一致と尾のリスクを低減する。
論文 参考訳(メタデータ) (2026-03-09T09:21:29Z) - Conformal Tradeoffs: Guarantees Beyond Coverage [0.02648566468224904]
配置されたコンフォーマル予測器は、有限操作ウィンドウ上で稼働する長期間の意思決定基盤である。
マージのカバレッジは、デプロイメントに直面する量を特定しません。
私たちは、範囲を超えて運用の認証と計画のためのフレームワークを提供しています。
論文 参考訳(メタデータ) (2026-02-20T07:58:25Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。