Fugu-MT 論文翻訳(概要): Process-Centric Analysis of Agentic Software Systems

論文の概要: Process-Centric Analysis of Agentic Software Systems

arxiv url: http://arxiv.org/abs/2512.02393v1
Date: Tue, 02 Dec 2025 04:12:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-03 21:04:45.712162
Title: Process-Centric Analysis of Agentic Software Systems
Title（参考訳）: エージェントソフトウェアシステムのプロセス中心解析
Authors: Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand,
Abstract要約: ソフトウェアシステムにおける時間的・意味的な関係をエンコードするためにGraphectoryを導入する。 2つの支配的エージェントプログラミングモデルの4000のトラジェクトリを解析する。完全に自動化された分析により、よりリッチなプロンプトを用いたエージェントはより複雑なGraphectoryを示すことが明らかとなった。
参考スコア（独自算出の注目度）: 10.976178600911263
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic systems are modern software systems: they consist of orchestrated modules, expose interfaces, and are deployed in software pipelines. Unlike conventional programs, their execution (i.e., trajectories) is inherently stochastic and adaptive to the problem they are solving. Evaluation of such systems is often outcome-centric, judging their performance based on success or failure at the final step. This narrow focus overlooks detailed insights about such systems, failing to explain how agents reason, plan, act, or change their strategies over time. Inspired by the structured representation of conventional software systems as graphs, we introduce Graphectory to systematically encode the temporal and semantic relations in such software systems. Graphectory facilitates the design of process-centric metrics and analyses to assess the quality of agentic workflows independent of final success. Using Graphectory, we analyze 4000 trajectories of two dominant agentic programming workflows, namely SWE-agent and OpenHands, with a combination of four backbone Large Language Models (LLMs), attempting to resolve SWE-bench Verified issues. Our fully automated analyses reveal that: (1) agents using richer prompts or stronger LLMs exhibit more complex Graphectory, reflecting deeper exploration, broader context gathering, and more thorough validation before patch submission; (2) agents' problem-solving strategies vary with both problem difficulty and the underlying LLM -- for resolved issues, the strategies often follow coherent localization-patching-validation steps, while unresolved ones exhibit chaotic, repetitive, or backtracking behaviors; (3) even when successful, agentic programming systems often display inefficient processes, leading to unnecessarily prolonged trajectories.
Abstract（参考訳）: エージェントシステムは現代のソフトウェアシステムであり、オーケストレーションされたモジュールで構成され、インターフェースを公開し、ソフトウェアパイプラインにデプロイされる。従来のプログラムとは異なり、それらの実行(つまり軌道)は本質的に確率的であり、彼らが解決している問題に適応する。このようなシステムの評価は結果中心であり、最終段階での成功や失敗に基づいてパフォーマンスを判断する。この狭い焦点は、エージェントが時間の経過とともに戦略を理由づけ、計画し、行動し、変更するかを説明するのに失敗した、そのようなシステムに関する詳細な洞察を見落としている。従来のソフトウェアシステムをグラフとして構造化した表現に着想を得て,このようなソフトウェアシステムにおける時間的・意味的関係を体系的に符号化するグラフ記述法を導入する。 Graphectoryはプロセス中心のメトリクスと分析を設計し、最終的な成功とは無関係にエージェントワークフローの品質を評価する。 Graphectoryを用いて、SWE-agentとOpenHandsという2つの支配的なエージェントプログラミングワークフローの4000の軌跡を4つのバックボーンLarge Language Models(LLMs)の組み合わせで解析し、SWE-bench検証問題の解決を試みる。我々は,(1)よりリッチなプロンプトを用いたエージェントは,より複雑なグラフィクトリーを示し,より深い探索,より広範なコンテキスト収集,およびパッチ適用前の詳細な検証を反映し,(2)エージェントの問題解決戦略は,問題の難易度と根底にあるLSMの両方によって異なることを明らかにした。

関連論文リスト

Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories [10.751728274263536]
本稿では,エージェントのトラジェクトリ,すなわちソフトウェア問題の解決に際し,エージェントが行うステップを捉えた実行トレースについて,実証的研究を行う。我々は、SWE-Benchベンチマークで、最先端の3つのコードエージェント(OpenHands、SWE-agent、Prometheus)の軌跡を分析し、成功と失敗の両方について検討した。
論文参考訳（メタデータ） (2025-10-31T18:58:13Z)
A Comprehensive Survey on Benchmarks and Solutions in Software Engineering of LLM-Empowered Agentic System [56.40989626804489]
この調査は、Large Language Modelsを使ったソフトウェアエンジニアリングに関する、最初の総合的な分析を提供する。本稿では,150以上の最近の論文をレビューし,(1)素早い,微調整,エージェントベースのパラダイムに分類した解法,(2)コード生成,翻訳,修復などのタスクを含むベンチマークという2つの重要な側面に沿った分類法を提案する。
論文参考訳（メタデータ） (2025-10-10T06:56:50Z)
AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文参考訳（メタデータ） (2025-10-06T23:20:49Z)
Just-in-time Episodic Feedback Hinter: Leveraging Offline Knowledge to Improve LLM Agents Adaptation [77.90555621662345]
JEF Hinterは、オフライントレースをコンパクトでコンテキスト対応のヒントに蒸留するエージェントシステムである。ズーム機構は、長い軌道における決定的なステップを強調し、戦略と落とし穴の両方をキャプチャする。 MiniWoB++、WorkArena-L1、WebArena-Liteの実験は、JSF Hinterが一貫して強力なベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2025-10-05T21:34:42Z)
CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文参考訳（メタデータ） (2025-10-03T17:30:16Z)
Illuminating LLM Coding Agents: Visual Analytics for Deeper Understanding and Enhancement [16.472150248814767]
我々は,コーディングエージェントの動作の検査を強化するために,視覚分析システムを導入する。我々のシステムでは,ML科学者がエージェントの動作に関する構造化された理解を得ることが可能である。
論文参考訳（メタデータ） (2025-08-18T01:17:11Z)
TRAIL: Trace Reasoning and Agentic Issue Localization [5.025960714013197]
この研究は、エージェントワークフロートレースに対する堅牢でダイナミックな評価方法の必要性を明確に示している。我々は,この分類法を用いて構築され,確立されたエージェント・ベンチマークに基づいて構築された148個の大型人名跡(TRAIL)について述べる。生態学的妥当性を確保するため,単一エージェントシステムとマルチエージェントシステムの両方のトレースをキュレートする。
論文参考訳（メタデータ） (2025-05-13T14:55:31Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。 MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文参考訳（メタデータ） (2025-03-17T19:04:38Z)
Analyzing Logs of Large-Scale Software Systems using Time Curves Visualization [0.0]
従来の知識を使わずに,異なるアプリケーションから収集したログのメインイベントを,我々のアプローチで説明できることが示される。その結果、パフォーマンスボトルネックとセキュリティリスクを特定するのに必要な時間の大幅な削減が期待できる。
論文参考訳（メタデータ） (2024-11-08T12:42:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。