論文の概要: Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation
- arxiv url: http://arxiv.org/abs/2606.01725v1
- Date: Mon, 01 Jun 2026 05:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.399809
- Title: Characterization of Multi-Model Agentic AI Systems on General Tasks via Trace-Driven Simulation
- Title(参考訳): トレース駆動シミュレーションによる汎用タスクにおけるマルチモデルエージェントAIシステムの特性評価
- Authors: Donghwan Kim, Prakhar Singh, Younghoon Min, Jongryool Kim, Jongse Park, Kiwan Maeng,
- Abstract要約: 本稿では、2つの最先端エージェントシステムのトークンレベルトレースデータセットであるGAIATraceについて述べる。
GAIATraceは、すべての主要なLLMの完全な推論トークン、タスクレベル構造、アクティビティをキャプチャする。
また、GAIATraceを再生して再現可能で低コストなシステム評価を行うトレース駆動シミュレータVidur-Agentを提案する。
- 参考スコア(独自算出の注目度): 16.378414807882603
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agentic AI completes tasks through iterative planning, tool use, and reasoning based on observed outcomes. Despite its popularity, its system-level behavior remains poorly understood, particularly for complex datasets and agent architectures-owing to highly non-deterministic execution, prohibitive evaluation costs, and limited visibility into proprietary models. This paper presents GAIATrace, the first token-level trace dataset of two state-of-the-art agentic systems (MiroThinker and OWL) running GAIA, a benchmark composed of a heterogeneous mix of general-purpose tasks. Unlike prior trace datasets, GAIATrace captures full reasoning tokens, task-level structures, and activities of every major participating LLMs, enabling in-depth systems research. Complementing the dataset, we present Vidur-Agent, a trace-driven simulator that can replay GAIATrace to perform reproducible, low-cost system evaluation across diverse simulated environments. Using both artifacts, we characterize how modern agentic systems handle general tasks and how various system design choices shape their behavior, yielding several unique findings.
- Abstract(参考訳): エージェントAIは、観察された結果に基づいて反復的な計画、ツールの使用、推論を通じてタスクを完了します。
その人気にもかかわらず、システムレベルの振る舞いはよく理解されていない。特に複雑なデータセットやエージェントアーキテクチャは、決定論的でない実行、禁止的な評価コスト、プロプライエタリなモデルへの可視性に制限があるためである。
本稿では、GAIAを実行する2つの最先端エージェントシステム(MiroThinkerとOWL)の最初のトークンレベルトレースデータセットであるGAIATraceについて述べる。
従来のトレースデータセットとは異なり、GAIATraceはすべての主要なLCMの完全な推論トークン、タスクレベル構造、アクティビティをキャプチャし、詳細なシステム研究を可能にする。
データセットの補完として,GAIATraceを再生して再現可能な低コストシステム評価を行うトレース駆動シミュレータのVidur-Agentを提案する。
両アーティファクトを用いて、現代のエージェントシステムが一般的なタスクをどのように扱うか、そして様々なシステム設計選択がそれらの振舞いをどう形成するかを特徴付け、いくつかの独特な発見をもたらす。
関連論文リスト
- Monitoring Data-aware Temporal Properties (Extended Version) [56.386411908764494]
有限トレース上の任意のSMT理論に富む線形時間特性の予測モニタリングについて考察する。
この設定での予測モニタリングは非常に困難であり、監視状態はこれまでのトレースプレフィックスと可能な有限継続の両方に依存している。
本研究は,表現的フラグメントオフMTにおける特性モニタリングのための新しい基礎的枠組みの正しさを提示し,正式に証明するものである。
論文 参考訳(メタデータ) (2026-05-14T10:23:11Z) - GeoAgentBench: A Dynamic Execution Benchmark for Tool-Augmented Agents in Spatial Analysis [16.604040127938955]
ツール拡張GISエージェントに適した動的かつインタラクティブな評価ベンチマークであるGeoAgentBench(GABench)を紹介する。
GABenchは117の原子GISツールを統合し、53の典型的な空間分析タスクを含む現実的なサンドボックスを提供する。
我々は,グローバルオーケストレーションをステップワイドなリアクティブ実行から切り離して,専門家の認知異常を模倣する新しいエージェントアーキテクチャであるPlan-and-Reactを開発した。
論文 参考訳(メタデータ) (2026-04-15T13:55:34Z) - A Hierarchical Multi-Agent System for Autonomous Discovery in Geoscientific Data Archives [0.0]
PANGAEA-GPTは、自律的なデータ発見と分析のために設計された階層型マルチエージェントフレームワークである。
標準のLarge Language Model (LLM)ラッパーとは異なり、我々のアーキテクチャは集中型スーパーバイザ-ワーバートポロジを実装している。
人間の介入を最小限に抑えながら、複雑な多段階決定論的ランタイムを実行するシステムの能力を実証する。
論文 参考訳(メタデータ) (2026-02-24T20:37:38Z) - LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - TRAIL: Trace Reasoning and Agentic Issue Localization [5.025960714013197]
この研究は、エージェントワークフロートレースに対する堅牢でダイナミックな評価方法の必要性を明確に示している。
我々は,この分類法を用いて構築され,確立されたエージェント・ベンチマークに基づいて構築された148個の大型人名跡(TRAIL)について述べる。
生態学的妥当性を確保するため,単一エージェントシステムとマルチエージェントシステムの両方のトレースをキュレートする。
論文 参考訳(メタデータ) (2025-05-13T14:55:31Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z) - Large Language Models as Realistic Microservice Trace Generators [48.730974361862366]
本稿では,大規模言語モデル (LLM) を用いて, 合成作業負荷トレースを生成する手法を提案する。
我々はTraceLLMが様々な条件下で多様なリアルなトレースを生成し、精度と妥当性の両方において既存のアプローチよりも優れていることを示す。
TraceLLMは、キートレース機能を予測したり、欠落したデータを埋め込むといった、下流のトレース関連タスクに適応する。
論文 参考訳(メタデータ) (2024-12-16T12:48:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。