論文の概要: Harness as an Asset: Enforcing Determinism via the Convergent AI Agent Framework (CAAF)
- arxiv url: http://arxiv.org/abs/2604.17025v2
- Date: Sat, 25 Apr 2026 21:49:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:06.871403
- Title: Harness as an Asset: Enforcing Determinism via the Convergent AI Agent Framework (CAAF)
- Title(参考訳): Harness as a Asset: Enforcecing Determinism via the Convergent AI Agent Framework (CAAF)
- Authors: Tianbao Zhang,
- Abstract要約: 大規模言語モデルは、安全クリティカルエンジニアリングにおける制御可能性のギャップを生み出します。
本稿では,エージェントをオープンループ生成からクローズループフェールセーフ決定性に移行するConvergent AI Agent Framework(CAAF)を紹介する。
CAAFの3つの柱は相補的な故障面に対処し、コモディティコストで制御可能性ギャップを閉じることはない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models produce a controllability gap in safety-critical engineering: even low rates of undetected constraint violations render a system undeployable. Current orchestration paradigms suffer from sycophantic compliance, context attention decay, and stochastic oscillation during self-correction. We introduce the Convergent AI Agent Framework (CAAF), which transitions agentic workflows from open-loop generation to closed-loop fail-safe determinism via three pillars: (1) Recursive Atomic Decomposition with physical context firewalls; (2) Harness as an Asset, formalizing domain invariants into machine-readable registries enforced by a deterministic Unified Assertion Interface; and (3) Structured Semantic Gradients with State Locking for monotonic non-regression. This paper makes two core claims. First, an industrialization thesis: once domain invariants are formalized as an executable Harness, the Harness itself becomes a first-class enterprise asset that compounds in value as foundation models commoditize, and CAAF's ability to deliver its reliability on commodity-tier models makes fully self-hosted, on-premises deployment architecturally feasible for regulated sectors where cloud APIs are not an option. Second, an architectural claim supported by ablation: CAAF's three pillars address complementary failure surfaces and none alone closes the controllability gap at commodity cost. The paper contributes entirely at the orchestration and industrialization layer. Evidence across two complementary benchmarks, three-tier UAI ablations, multi-agent baselines, and a closed-source commodity family replicated by two independent open-weight families, is reported in the body.
- Abstract(参考訳): 大規模な言語モデルは、安全クリティカルなエンジニアリングにおいて制御可能性のギャップを生み出します。
現在のオーケストレーションパラダイムは、サイコファンティックコンプライアンス、コンテキストアテンションの崩壊、自己補正中の確率的振動に悩まされている。
本稿では,エージェントワークフローをオープンループ生成からクローズループのフェールセーフ決定性へ移行するConvergent AI Agent Framework(CAAF)を紹介する。(1)物理コンテキストファイアウォールによる再帰的原子分解,(2)決定論的統一推論インタフェースによって強制されるドメイン不変量から機械可読レジストリへのアセットとしてのハーネス,(3)モノトニック非回帰のためのステートロックによる構造化セマンティックグラディエント,である。
この論文は2つの中核的な主張をする。
原文(投稿日:2012/09/10)へのリンク 工業化のテーマは、一度ドメイン不変量が実行可能なHarnessとして形式化されると、Harness自体がファンデーションモデルとして価値の高い第一級のエンタープライズ資産となり、CAAFがその信頼性をコモディティ層モデルで提供する能力は、クラウドAPIがオプションではない規制されたセクターに対して、完全に自己ホストされたオンプレミスデプロイメントをアーキテクチャ的に実現可能にする。
CAAFの3つの柱は相補的な障害面に対処し、コモディティコストで制御可能性ギャップを埋めることはない。
この論文は、完全にオーケストレーションと工業化のレイヤに貢献する。
2つの補完的なベンチマーク、三層UAIアブレーション、マルチエージェントベースライン、および2つの独立したオープンウェイトファミリーによって複製されたクローズドソースコモディティファミリーの証拠が体内で報告されている。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Umwelt Engineering: Designing the Cognitive Worlds of Linguistic Agents [0.0]
スタック・スタック・エンジニアリングにおける第3層として言語認知環境の設計を提案する。
2つの実験は、推論の媒質を変えることがそれ自体を変えるという仮説を検証した。
論文 参考訳(メタデータ) (2026-03-29T10:49:50Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol [0.0]
マルチ基準検出フレームワークであるUCIP(Unified Continuation-Interest Protocol)を導入する。
量子統計力学の密度行列形式に基づく古典的アルゴリズムである量子ボルツマン機械(QBM)で軌道を符号化する。
地上目標を持つグリッドワールドエージェントでは、UCIPは100%検出精度が得られ、AUC-ROCは1.0AUC-ROCである。
論文 参考訳(メタデータ) (2026-03-11T23:52:33Z) - Distilling Deep Reinforcement Learning into Interpretable Fuzzy Rules: An Explainable AI Framework [1.9180507495574395]
深層強化学習(DRL)エージェントは、継続的な制御において顕著なパフォーマンスを達成するが、不透明なままであり、安全クリティカルなドメインへの展開を妨げる。
既存の説明可能性法は、局所的な洞察(SHAP、LIME)のみを提供するか、過度に単純化されたサロゲートを使用し、連続的なダイナミクスを捉えることができない。
本研究では、状態可読パーティショニングのためのK-Meansクラスタリングを通じて、ニューラルポリシーを人間可読IF-THENルールに蒸留するファジィシステム(FCS)を提案する。
説明焦点を測定するルール密度(FRAD)、語彙完全性を検証するファジィ集合被覆(FSC)、行動空間の粒度(Action Space Granularity)の3つの定量化指標が導入された。
論文 参考訳(メタデータ) (2026-02-24T23:53:01Z) - Prompt Injection Evaluations: Refusal Boundary Instability and Artifact-Dependent Compliance in GPT-4-Series Models [0.0]
GPT-4.1 と GPT-4o の2つのモデルを評価する。
アーティファクトタイプは摂動スタイルよりも断裂の予測が強いことが分かりました。
断熱挙動は安定な二元性というよりは確率的であり, 人工物に依存した境界現象である。
論文 参考訳(メタデータ) (2026-01-25T17:14:33Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。