論文の概要: Open Agent Specification (Agent Spec): A Unified Representation for AI Agents
- arxiv url: http://arxiv.org/abs/2510.04173v4
- Date: Fri, 07 Nov 2025 14:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.518533
- Title: Open Agent Specification (Agent Spec): A Unified Representation for AI Agents
- Title(参考訳): Open Agent Specification (Agent Spec):AIエージェントの統一表現
- Authors: Soufiane Amini, Yassine Benajiba, Cesare Bernardis, Paul Cayet, Hassan Chafi, Abderrahim Fathan, Louis Faucon, Damien Hilloulin, Sungpack Hong, Ingo Kossyk, Tran Minh Son Le, Rhicheek Patra, Sujith Ravi, Jonas Schweizer, Jyotika Singh, Shailender Singh, Weiyi Sun, Kartik Talamadupula, Jerry Xu,
- Abstract要約: 我々はAIエージェントとエージェントを定義する宣言型言語Open Agent Specification(Agent Spec)を紹介する。
Agent Specは、コンポーネント、コントロールとデータフローのセマンティクス、スキーマの共通セットを定義し、エージェントを一度定義し、異なるランタイム間で実行できるようにする。
- 参考スコア(独自算出の注目度): 10.685555728094338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of agent frameworks has led to fragmentation in how agents are defined, executed, and evaluated. Existing systems differ in their abstractions, data flow semantics, and tool integrations, making it difficult to share or reproduce workflows. We introduce Open Agent Specification (Agent Spec), a declarative language that defines AI agents and agentic workflows in a way that is compatible across frameworks, promoting reusability, portability and interoperability of AI agents. Agent Spec defines a common set of components, control and data flow semantics, and schemas that allow an agent to be defined once and executed across different runtimes. Agent Spec also introduces a standardized Evaluation harness to assess agent behavior and agentic workflows across runtimes - analogous to how HELM and related harnesses standardized LLM evaluation - so that performance, robustness, and efficiency can be compared consistently across frameworks. We demonstrate this using four distinct runtimes (LangGraph, CrewAI, AutoGen, and WayFlow) evaluated over three different benchmarks (SimpleQA Verified, $\tau^2$-Bench and BIRD-SQL). We provide accompanying toolsets: a Python SDK (PyAgentSpec), a reference runtime (WayFlow), and adapters for popular frameworks (e.g., LangGraph, AutoGen, CrewAI). Agent Spec bridges the gap between model-centric and agent-centric standardization & evaluation, laying the groundwork for reliable, reusable, and portable agentic systems.
- Abstract(参考訳): エージェントフレームワークの拡散は、エージェントの定義、実行、評価の方法に断片化をもたらした。
既存のシステムでは抽象化やデータフローのセマンティクス、ツールの統合が異なり、ワークフローの共有や複製が困難になる。
私たちは、AIエージェントとエージェントワークフローをフレームワーク間で互換性のある方法で定義し、AIエージェントの再利用性、移植性、相互運用性を促進する宣言型言語Open Agent Specification(Agent Spec)を紹介します。
Agent Specは、コンポーネント、コントロールとデータフローのセマンティクス、スキーマの共通セットを定義し、エージェントを一度定義し、異なるランタイム間で実行できるようにする。
Agent Specはまた、ランタイム全体にわたるエージェントの振る舞いやエージェントワークフローを評価するための標準化された評価ハーネスも導入している。
我々はこれを,3つの異なるベンチマーク(SimpleQA Verified, $\tau^2$-Bench, BIRD-SQL)で評価した4つの異なるランタイム(LangGraph, CrewAI, AutoGen, WayFlow)を用いて実証した。
Python SDK(PyAgentSpec)、参照ランタイム(WayFlow)、一般的なフレームワーク(例えば、LangGraph、AutoGen、CrewAI)用のアダプタなどです。
Agent Specは、モデル中心とエージェント中心の標準化と評価のギャップを埋め、信頼性、再利用可能な、ポータブルなエージェントシステムのための基盤となる。
関連論文リスト
- AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation [39.61543921719145]
AgentSelectは、エージェントの選択をナラティブクエリからエージェントへのレコメンデーションとして再設計するベンチマークである。
異種評価アーティファクトを、統一された正のみの相互作用データに変換する。
AgentSelectは、エージェントレコメンデーションのための最初の統一データと評価インフラストラクチャを提供する。
論文 参考訳(メタデータ) (2026-03-04T06:17:51Z) - ISO-Bench: Can Coding Agents Optimize Real-World Inference Workloads? [0.8749675983608171]
実世界の推論タスクでその能力をテストするためのコーディングエージェントのベンチマークであるISO-Benchを紹介する。
統合プルリクエストから54のタスクをキュレートし、測定可能なパフォーマンスを改善しました。
論文 参考訳(メタデータ) (2026-02-23T08:37:53Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Beyond Rule-Based Workflows: An Information-Flow-Orchestrated Multi-Agents Paradigm via Agent-to-Agent Communication from CORAL [0.15199492741752027]
本稿ではエージェント・ツー・エージェント(A2A)通信を用いた情報フロー型マルチエージェントパラダイムを提案する。
汎用ベンチマークGAIAに対する我々のアプローチを,代表的ワークフローベースMASをベースラインとして評価した。
本手法は63.64%の精度を達成し, OWL の55.15% を8.49 % に上回り, トークン消費に匹敵する性能を示した。
論文 参考訳(メタデータ) (2026-01-14T21:35:51Z) - Monadic Context Engineering [59.95390010097654]
本稿では,エージェント設計の正式な基盤を提供するために,モナディックコンテキストエンジニアリング(MCE)を紹介する。
我々は、モナドがロバストなコンポジションをどのように実現し、Applicativesが並列実行に原則化された構造を提供し、また、モナドトランスフォーマーがこれらの機能の体系的なコンポジションをどのように可能にしているかを実証する。
この階層化されたアプローチにより、開発者は、単純で独立した検証可能なコンポーネントから、複雑でレジリエントで効率的なAIエージェントを構築することができる。
論文 参考訳(メタデータ) (2025-12-27T01:52:06Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - AgentScope 1.0: A Developer-Centric Framework for Building Agentic Applications [95.42093979627703]
AgentScopeは柔軟で効率的なツールベースのエージェント環境インタラクションをサポートする。
エージェントの動作をReActパラダイムに基盤として,エージェントレベルの高度なインフラストラクチャを提供します。
AgentScopeには、開発者フレンドリーなエクスペリエンスのための堅牢なエンジニアリングサポートも含まれている。
論文 参考訳(メタデータ) (2025-08-22T10:35:56Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - Agent-as-a-Service based on Agent Network [9.5094423572869]
本稿では,RGPS(Role-Goal-Process-Service)標準に基づくサービス指向パラダイムであるエージェントネットワーク(A-AN)に基づくエージェント・アズ・ア・サービスを提案する。
A-ANは、構築、統合、相互運用性、ネットワーク化されたコラボレーションを含む、エージェントライフサイクル全体を統一する。
我々は,MASにおける長鎖協調の今後の研究を促進するために,1万個の長軸マルチエージェントを含むデータセットをリリースする。
論文 参考訳(メタデータ) (2025-05-13T11:15:19Z) - PC-Agent: A Hierarchical Multi-Agent Collaboration Framework for Complex Task Automation on PC [98.82146219495792]
本稿では,PC-Agentという階層型エージェントフレームワークを提案する。
認識の観点からは,現在のMLLMのスクリーンショットコンテンツに対する認識能力の不十分さを克服するために,アクティブ知覚モジュール(APM)を考案する。
意思決定の観点から、複雑なユーザ命令や相互依存サブタスクをより効果的に扱うために、階層的なマルチエージェント協調アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-20T05:41:55Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - DAWN: Designing Distributed Agents in a Worldwide Network [0.38447712214412116]
DAWNはグローバルに分散エージェントを登録し、ゲートウェイエージェントを通じて簡単に発見できる。
No-LLM Mode for Deterministic Task, Copilot for augmented decision-making, and LLM Agent for autonomous operations。
DAWNは、専用の安全性、セキュリティ、コンプライアンスレイヤを通じて、世界中のエージェントコラボレーションの安全性とセキュリティを保証する。
論文 参考訳(メタデータ) (2024-10-11T18:47:04Z) - Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [112.04307762405669]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - AutoAgents: A Framework for Automatic Agent Generation [27.74332323317923]
AutoAgentsは、さまざまなタスクに応じてAIチームを構築するために、複数の専門エージェントを適応的に生成し、コーディネートする革新的なフレームワークである。
各種ベンチマーク実験により,AutoAgentsは既存のマルチエージェント手法よりも一貫性と正確な解を生成することが示された。
論文 参考訳(メタデータ) (2023-09-29T14:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。