論文の概要: CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation
- arxiv url: http://arxiv.org/abs/2605.15218v1
- Date: Tue, 12 May 2026 14:46:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.009171
- Title: CAX-Agent: A Lightweight Agent Harness for Reliable APDL Automation
- Title(参考訳): CAX-Agent: 信頼性の高いAPDL自動化のための軽量エージェントハーネス
- Authors: Chenying Lin, Yichen Hai, Yi He, Ran Wang, Haiyan Qiang, Liang Yu,
- Abstract要約: 本稿ではMAPDL自動化のための軽量エージェントハーネスであるCAX-Agentのアーキテクチャについて述べる。
我々は50の標準構造ベンチマークで3つのリカバリ戦略(no_recovery, rule_only, model_only)を評価した。
Model_onlyは、最大完了率(0.9267)、タスクスコア(3.59/4)、総得点(9.16/10)、ゼロ介入率(0.84)、0.7733, 3.17/4, 7.03/10, 0.00)、no_recovery(0.6933, 2.74/4, 5.60/10, 0.00)を大きな効果サイズで達成する。
- 参考スコア(独自算出の注目度): 7.355373109826612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models deployed for MAPDL finite-element simulation face practical reliability challenges: without structured execution control, tool encapsulation, and fault recovery, outputs may be inconsistent and task failures are common. The Agent Harness paradigm addresses this by inserting domain-specific orchestration middleware that manages tool lifecycles, workflow state, and recovery escalation. This paper presents the architecture of CAX-Agent, a lightweight agent harness purpose-built for MAPDL automation, and empirically evaluates one of its core components -- the recovery policy.CAX-Agent organizes execution into three layers -- LLM service, agent harness, and solver backend -- with a recovery ladder that escalates from deterministic rule patching through model-driven regeneration to context enrichment and human intervention. We evaluate three recovery strategies (no_recovery, rule_only, and model_only) on 50 standard structural benchmarks with three repeated runs per strategy (450 case-runs total). Two independent human raters score task completion under blind conditions; inter-rater agreement is strong (quadratic weighted Cohen's kappa = 0.84, 96 percent of score pairs within one point). Model_only achieves the best completion rate (0.9267), task score (3.59/4), total score (9.16/10), and zero-intervention rate (0.84), outperforming rule_only (0.7733, 3.17/4, 7.03/10, 0.00) and no_recovery (0.6933, 2.74/4, 5.60/10, 0.00) with large effect sizes (Cliff's delta = 0.81-0.87). The benchmark uses deliberately simple geometries to isolate recovery-policy effects; we discuss the scope of these findings and directions for broader validation.
- Abstract(参考訳): MAPDL有限要素シミュレーションのためにデプロイされた大規模言語モデルは、構造化された実行制御、ツールカプセル化、障害回復がなければ、出力が矛盾する可能性があり、タスクの失敗が一般的である。
Agent Harnessパラダイムは、ツールライフサイクル、ワークフロー状態、リカバリエスカレーションを管理するドメイン固有のオーケストレーションミドルウェアを挿入することで、この問題に対処する。
本稿では,MAPDL自動化のために構築された軽量エージェントハーネスであるCAX-Agentのアーキテクチャを実証的に評価し,その中核となるコンポーネントであるCAX-AgentをLLMサービス,エージェントハーネス,ソルババックエンドの3層に編成し,モデル駆動型リジェネレーションからコンテキストエンリッチメント,人間の介入に至るまで,決定論的ルールパッチングからエスカレートする。
本研究は,50の標準構造ベンチマークにおいて,3つのリカバリ戦略 (no_recovery, rule_only, model_only) を評価した。
インディペンデントな2人のラッカーは、ブラインド条件下でタスク完了をスコアするが、レイター間の合意は強い(コーエンのカッパは0.84、スコアペアの96%が1ポイント以内)。
Model_onlyは最高の完了率(0.9267)、タスクスコア(3.59/4)、総得点(9.16/10)、ゼロ介入率(0.84)、0.7733, 3.17/4, 7.03/10, 0.00)、0_recovery(0.6933, 2.74/4, 5.60/10, 0.00)を大きな効果サイズで達成する(Cliffのデルタ= 0.81-0.87)。
このベンチマークでは、リカバリ・ポリシー効果を分離するために、故意に単純なジオメトリを用いており、これらの発見の範囲と、より広範な検証のための方向性について論じている。
関連論文リスト
- Orchard: An Open-Source Agentic Modeling Framework [119.63254821764379]
スケーラブルなエージェントモデリングのためのオープンソースのフレームワークOrchardを紹介します。
Orchard Envは、サンドボックスライフサイクル管理のための再利用可能なプリミティブを提供する軽量環境サービスである。
Orchard Envの上に、3つのエージェントモデリングレシピを構築します。
論文 参考訳(メタデータ) (2026-05-14T16:35:12Z) - Three Roles, One Model: Role Orchestration at Inference Time to Close the Performance Gap Between Small and Large Agents [0.4666493857924357]
複雑なマルチステップ環境において,推論時足場のみに追加のトレーニング計算を使わずに,小さなモデルの性能を向上させることができるかどうかを検討した。
我々は,AppWorldベンチマークのQwen3-8Bを,完全精度と4ビット量子化構成の両方で評価した。
本格的な推測では、私たちの足場付き8Bモデルは、オリジナルのAppWorld評価からDeepSeek-Coder 33Bインストラクション(7.1%)を上回っています。
論文 参考訳(メタデータ) (2026-04-13T13:40:33Z) - DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles [5.647839536820347]
著者間の不一致構造を抽出し活用し,信頼度を良好に推定するフレームワークであるDiscoUQを紹介する。
DiscoUQ-LLM の平均 AUROC は 0.802 であり、最高のベースラインを上回っている。
学習した機能は、ほぼゼロに近いパフォーマンス劣化を伴うベンチマークで一般化される。
論文 参考訳(メタデータ) (2026-03-21T23:24:12Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - MortgageLLM: Domain-Adaptive Pretraining with Residual Instruction Transfer, Alignment Tuning, and Task-Specific Routing [0.7367330074083941]
ドメイン固有の新しい大規模言語モデルであるMortgageLLMを提案する。
シングルベースモデルからデュアルトラックの特殊化フレームワークを用いて開発されている。
我々は,(1)高度に専門化された住宅ローン金融分野へのこの残留手法の適用,(2)対話型Q&Aモデルと,分類と要約のための構造化タスクモデルを組み合わせたデュアルエキスパートアーキテクチャ,(3)エキスパートモデル自体が行う少数ショット分類を用いたインテリジェントタスクルーティング機構を提案する。
論文 参考訳(メタデータ) (2025-11-26T06:37:57Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Hybrid-Segmentor: A Hybrid Approach to Automated Fine-Grained Crack Segmentation in Civil Infrastructure [52.2025114590481]
エンコーダ・デコーダをベースとした手法であるHybrid-Segmentorを導入する。
これにより、モデルは、様々な種類の形状、表面、き裂の大きさを区別する一般化能力を向上させることができる。
提案モデルは,5つの測定基準(精度0.971,精度0.804,リコール0.744,F1スコア0.770,IoUスコア0.630)で既存ベンチマークモデルより優れ,最先端の状態を達成している。
論文 参考訳(メタデータ) (2024-09-04T16:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。