論文の概要: Agent-First Tool API: A Semantic Interface Paradigm for Enterprise AI Agent Systems
- arxiv url: http://arxiv.org/abs/2605.10555v1
- Date: Mon, 11 May 2026 13:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 02:24:05.567852
- Title: Agent-First Tool API: A Semantic Interface Paradigm for Enterprise AI Agent Systems
- Title(参考訳): Agent-First Tool API: エンタープライズAIエージェントシステムのためのセマンティックインターフェースパラダイム
- Authors: Kai Pan,
- Abstract要約: 本稿では,ツールインタラクションを検索,解決,プレビュー,実行,検証,フェーズ回復に分解するAgent-First Tool APIパラダイムを提案する。
このパラダイムは、6つのビジネスドメインに85の登録ツールを提供する実運用マルチテナントプラットフォームで実装され、検証されている。
- 参考スコア(独自算出の注目度): 1.3259123126940986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI agents transition from research prototypes to enterprise production systems, the tool interfaces they consume remain rooted in human-oriented CRUD paradigms. This paper identifies five fundamental architectural mismatches between conventional APIs and autonomous agent requirements: exact-identifier dependence, rendering-oriented responses, single-shot interaction assumptions, user-equivalent authorization, and opaque error semantics. We propose the Agent-First Tool API paradigm, comprising three integrated mechanisms: (1) a Six-Verb Semantic Protocol that decomposes tool interactions into search, resolve, preview, execute, verify, and recover phases; (2) a Normalized Tool Contract (NTC) providing structured decision-support metadata including confidence scores, evidence chains, and suggested next actions; and (3) a dual-layer governance pipeline combining static capability policies with dynamic risk escalation. The paradigm is implemented and validated in a production multi-tenant SaaS platform serving 85 registered tools across 6 business domains. Comparative experiments on 50 real operational tasks demonstrate that Agent-First APIs achieve 88% end-to-end task success rate versus 64% for optimized CRUD baselines (+37.5%), while reducing required human interventions by 72.7% and improving autonomous error recovery by 5.8x. We establish that the paradigm is orthogonal and complementary to transport-layer standards such as MCP, operating as the semantic application layer above existing tool discovery and invocation protocols.
- Abstract(参考訳): AIエージェントが研究プロトタイプからエンタープライズプロダクションシステムへ移行するにつれて、それらが消費するツールインターフェースは、人間指向のCRUDパラダイムに根ざしているままである。
本稿では,従来のAPIと自律エージェントの要件との間にある5つの基本的なアーキテクチャ上のミスマッチを識別する: 正確な識別子依存,レンダリング指向応答,シングルショットインタラクション仮定,ユーザ相当の認証,不透明なエラーセマンティクス。
1)ツールインタラクションを探索,解決,プレビュー,実行,検証,フェーズに分解するSix-Verb Semantic Protocol,(2)信頼度スコア,エビデンスチェーン,次のアクションを含む構造化された意思決定支援メタデータを提供するNTC,(3)動的リスクエスカレーションを備えた静的機能ポリシを組み合わせた2層ガバナンスパイプライン,という3つの統合メカニズムからなるエージェントファーストツールAPIパラダイムを提案する。
このパラダイムは、6つのビジネスドメインに85の登録ツールを提供するマルチテナントSaaSプラットフォームで実装され、検証されている。
50の実際の運用タスクの比較実験では、Agent-First APIは88%のエンドツーエンドのタスク成功率と64%のCRUDベースライン(+37.5%)を達成し、必要な人間の介入を72.7%削減し、自動エラー回復を5.8倍改善した。
このパラダイムは,MPPなどのトランスポート層標準に対して直交的かつ補完的であり,既存のツール発見および呼び出しプロトコルよりも上位のセマンティックアプリケーション層として機能することを確立する。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - Semantic Consensus: Process-Aware Conflict Detection and Resolution for Enterprise Multi-Agent LLM Systems [0.0]
エンタープライズAI自動化の主要なアーキテクチャとして,マルチエージェント大規模言語モデル(LLM)システムが急速に普及している。
生産は41%から86.7%の失敗率を示しており、その約79%は仕様や調整の問題に起因する失敗である。
6つのコンポーネントからなるプロセス認識フレームワークSemantic Consensus Framework(SCF)を提案する。
論文 参考訳(メタデータ) (2026-03-13T14:55:38Z) - Jenius Agent: Towards Experience-Driven Accuracy Optimization in Real-World Scenarios [0.9069311779417014]
本稿では,実体験に基づくエージェントフレームワークを提案する。
Jenius-Agentという名前のエンドツーエンドフレームワークは、3つの重要な最適化と統合されている。
実験によると、タスクの精度が20%向上し、トークンコストが削減され、レスポンスレイテンシが低下し、起動障害が発生している。
論文 参考訳(メタデータ) (2026-01-05T07:35:12Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Towards Engineering Multi-Agent LLMs: A Protocol-Driven Approach [13.760107452858044]
本稿では,マルチエージェントのための3つの中核SE設計原則をインスタンス化するプロトコル層方法論である,SEMAP(Software Engineering Multi-Agent Protocol)を紹介する。
コード開発では、機能レベルの開発が69.6%減少し、デプロイメントレベルの開発が56.7%に達する。
論文 参考訳(メタデータ) (2025-10-14T03:49:30Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。