Fugu-MT 論文翻訳(概要): Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study

論文の概要: Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study

arxiv url: http://arxiv.org/abs/2506.08311v1
Date: Tue, 10 Jun 2025 00:41:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-11 15:11:40.959096
Title: Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study
Title（参考訳）: トレーサビリティのレンズを通してソフトウェアエンジニアリングエージェントを理解する:実証的研究
Authors: Ira Ceka, Saurabh Pujar, Shyam Ramji, Luca Buratti, Gail Kaiser, Baishakhi Ray,
Abstract要約: ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
参考スコア（独自算出の注目度）: 15.97770416681533
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the advent of large language models (LLMs), software engineering agents (SWE agents) have emerged as a powerful paradigm for automating a range of software tasks -- from code generation and repair to test case synthesis. These agents operate autonomously by interpreting user input and responding to environmental feedback. While various agent architectures have demonstrated strong empirical performance, the internal decision-making worfklows that drive their behavior remain poorly understood. Deeper insight into these workflows hold promise for improving both agent reliability and efficiency. In this work, we present the first systematic study of SWE agent behavior through the lens of execution traces. Our contributions are as follows: (1) we propose the first taxonomy of decision-making pathways across five representative agents; (2) using this taxonomy, we identify three core components essential to agent success -- bug localization, patch generation, and reproduction test generation -- and study each in depth; (3) we study the impact of test generation on successful patch production; and analyze strategies that can lead to successful test generation; (4) we further conduct the first large-scale code clone analysis comparing agent-generated and developer-written patches and provide a qualitative study revealing structural and stylistic differences in patch content. Together, these findings offer novel insights into agent design and open avenues for building agents that are both more effective and more aligned with human development practices.
Abstract（参考訳）: 大規模言語モデル(LLM)の出現に伴い、ソフトウェアエンジニアリングエージェント(SWEエージェント)は、コード生成からテストケース合成まで、さまざまなソフトウェアタスクを自動化するための強力なパラダイムとして登場した。これらのエージェントは、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。様々なエージェントアーキテクチャは、強い経験的性能を示してきたが、その振る舞いを駆動する内部決定のワーフクローは、いまだに理解されていない。これらのワークフローに関するより深い洞察は、エージェントの信頼性と効率性を改善することを約束する。本研究では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。本研究は,(1) 提案する5つの代表エージェント間の意思決定経路の最初の分類法,(2) この分類法を用いて, エージェントの成功に不可欠な3つのコアコンポーネント, バグローカライゼーション, パッチ生成, 再生テスト生成) を同定し, それぞれを深く研究し, (3) テスト生成が成功したパッチ生成に与える影響を調査し, そして, テスト生成に繋がる戦略を分析し, (4) エージェント生成パッチと開発者記述パッチを比較した最初の大規模コードクローン分析を行い, パッチコンテンツの構造的および構造的差異を明らかにする定性的な研究を行う。これらの発見は、エージェント設計に関する新しい洞察と、より効果的で、より人間開発プラクティスに整合したエージェントを構築するためのオープンな道を提供する。

関連論文リスト

Agentic Reasoning for Large Language Models [122.81018455095999]
推論は推論、問題解決、意思決定の基礎となる基本的な認知プロセスである。大規模言語モデル(LLM)は、クローズドワールド設定では強力な推論能力を示すが、オープンエンドおよび動的環境では苦労する。エージェント推論は、連続的な相互作用を計画し、行動し、学習する自律的なエージェントとしてLLMを解釈することでパラダイムシフトを示す。
論文参考訳（メタデータ） (2026-01-18T18:58:23Z)
From Correctness to Collaboration: Toward a Human-Centered Framework for Evaluating AI Agent Behavior in Software Engineering [7.402388519535592]
現在のベンチマークでは、コードの正確性に重点を置いているが、人間とAIのパートナーシップを成功させる上で欠かせない、対話的な振る舞いを捉えていない。本稿では,エンタープライズソフトウェア工学における望ましいエージェント行動の基礎的分類について述べる。また、コンテキスト適応行動(CAB)フレームワークを導入します。
論文参考訳（メタデータ） (2025-12-29T20:18:57Z)
Understanding Code Agent Behaviour: An Empirical Study of Success and Failure Trajectories [10.751728274263536]
本稿では,エージェントのトラジェクトリ,すなわちソフトウェア問題の解決に際し,エージェントが行うステップを捉えた実行トレースについて,実証的研究を行う。我々は、SWE-Benchベンチマークで、最先端の3つのコードエージェント(OpenHands、SWE-agent、Prometheus)の軌跡を分析し、成功と失敗の両方について検討した。
論文参考訳（メタデータ） (2025-10-31T18:58:13Z)
A Survey of Vibe Coding with Large Language Models [93.88284590533242]
視覚符号化(Vibe Coding)は、開発者が成果観察を通じてAI生成の実装を検証する開発手法である。変革の可能性にもかかわらず、この創発的パラダイムの有効性は未解明のままである。この調査は、大規模な言語モデルによるVibe Codingの総合的かつ体系的なレビューを初めて提供する。
論文参考訳（メタデータ） (2025-10-14T11:26:56Z)
A Survey on Code Generation with LLM-based Agents [61.474191493322415]
大規模言語モデル(LLM)を利用したコード生成エージェントは、ソフトウェア開発パラダイムに革命をもたらしている。 LLMは3つのコア特徴によって特徴づけられる。本稿では,LLMに基づくコード生成エージェントの分野を体系的に調査する。
論文参考訳（メタデータ） (2025-07-31T18:17:36Z)
Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories [18.129031749321058]
大規模言語モデル(LLM)ベースのエージェントは、複雑なソフトウェアエンジニアリングタスクを自動化するためにますます採用されている。広く採用されているにもかかわらず、これらのエージェントの内部決定プロセスはほとんど解明されていない。本研究は,3種類のLLM系エージェントの思考-反感-反感の軌跡について,大規模な実証的研究を行った。
論文参考訳（メタデータ） (2025-06-23T16:34:52Z)
OAgents: An Empirical Study of Building Effective Agents [46.50371876218872]
キーエージェントコンポーネントにおける一般的な設計選択の影響を,公平かつ厳密な方法で検討する。この結果に基づいて,新たな基盤エージェントフレームワークであるOAgentsをオープンソースとして開発しています。
論文参考訳（メタデータ） (2025-06-17T17:59:02Z)
Scaling Test-time Compute for LLM Agents [51.790752085445384]
テスト時間計算のスケールアップは、大規模言語モデル(LLM)の推論能力の向上に顕著な成功を収めた。本研究では,テスト時間スケーリング手法を言語エージェントに適用する最初の体系的な検討を行う。
論文参考訳（メタデータ） (2025-06-15T17:59:47Z)
AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。既存のエージェントサーチ手法には3つの大きな制限がある。これらの課題に対処するための包括的なフレームワークを導入します。
論文参考訳（メタデータ） (2025-06-06T12:07:23Z)
Can AI Master Econometrics? Evidence from Econometrics AI Agent on Expert-Level Tasks [9.52446148818128]
オープンソースのMetaGPTフレームワーク上に構築された「計量AIエージェント」を開発した。本発明のエージェントは,(1)エコノメトリタスクを戦略的に計画し,(2)コードの生成と実行,(3)堅牢性向上のためのエラーベースのリフレクション,(4)多ラウンド会話による反復的洗練,といった優れた性能を示す。
論文参考訳（メタデータ） (2025-06-01T06:34:42Z)
Unifying Language Agent Algorithms with Graph-based Orchestration Engine for Reproducible Agent Research [32.92036657863354]
大規模言語モデル(LLM)を利用した言語エージェントは、複雑なタスクの理解、推論、実行において顕著な能力を示した。しかし、堅牢なエージェントの開発には、相当なエンジニアリングオーバーヘッド、標準化されたコンポーネントの欠如、公正な比較のための十分な評価フレームワークなど、大きな課題がある。我々はこれらの課題に対処するフレキシブルで抽象的なフレームワークであるAGORA(Agent Graph-based Orchestration for Reasoning and Assessment)を紹介した。
論文参考訳（メタデータ） (2025-05-30T08:46:23Z)
A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文参考訳（メタデータ） (2025-04-12T01:27:49Z)
On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文参考訳（メタデータ） (2025-04-02T17:40:47Z)
Large Language Model Agent: A Survey on Methodology, Applications and Challenges [88.3032929492409]
大きな言語モデル(LLM)エージェントは、目標駆動の振る舞いと動的適応能力を持ち、人工知能への重要な経路を示す可能性がある。本調査は, LLMエージェントシステムを方法論中心の分類法により体系的に分解する。私たちの作業は、エージェントの構築方法、コラボレーション方法、時間の経過とともにどのように進化するか、という、統一されたアーキテクチャの視点を提供します。
論文参考訳（メタデータ） (2025-03-27T12:50:17Z)
MLGym: A New Framework and Benchmark for Advancing AI Research Agents [51.9387884953294]
我々はMeta MLGymとMLGym-Benchを紹介した。これはAI研究タスクにおける大規模言語モデルの評価と開発のための新しいフレームワークとベンチマークである。これは機械学習(ML)タスクのための最初のGym環境であり、そのようなエージェントをトレーニングするための強化学習(RL)アルゴリズムの研究を可能にする。我々は、Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview、Gemini-1.5 Proなどのベンチマークで、多くのフロンティア大言語モデル(LLM)を評価した。
論文参考訳（メタデータ） (2025-02-20T12:28:23Z)
Textualized Agent-Style Reasoning for Complex Tasks by Multiple Round LLM Generation [49.27250832754313]
我々は、llmベースの自律エージェントフレームワークであるAgentCOTを紹介する。それぞれのステップで、AgentCOTはアクションを選択し、それを実行して、証拠を裏付ける中間結果を得る。エージェントCOTの性能を高めるための2つの新しい戦略を導入する。
論文参考訳（メタデータ） (2024-09-19T02:20:06Z)
CORE-Bench: Fostering the Credibility of Published Research Through a Computational Reproducibility Agent Benchmark [11.794931453828974]
CORE-Benchは3つの分野(コンピュータ科学、社会科学、医学)にわたる90の科学論文に基づく270のタスクからなるベンチマークである。エージェントの精度を高速かつ並列に測定する評価システムを提案する。最高のエージェントは、最も難しいタスクにおいて21%の精度を達成した。
論文参考訳（メタデータ） (2024-09-17T17:13:19Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)
An In-depth Survey of Large Language Model-based Artificial Intelligence Agents [11.774961923192478]
LLMベースのAIエージェントと従来のAIエージェントの主な違いと特徴について検討した。我々は、計画、記憶、ツール使用を含むAIエージェントの重要なコンポーネントについて、詳細な分析を行った。
論文参考訳（メタデータ） (2023-09-23T11:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。