論文の概要: Reproducible, Explainable, and Effective Evaluations of Agentic AI for Software Engineering
- arxiv url: http://arxiv.org/abs/2604.01437v1
- Date: Wed, 01 Apr 2026 22:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.081342
- Title: Reproducible, Explainable, and Effective Evaluations of Agentic AI for Software Engineering
- Title(参考訳): ソフトウェア工学におけるエージェントAIの再現性,説明性,有効性評価
- Authors: Jingyue Li, André Storhaug,
- Abstract要約: エージェントAIを支える大きな言語モデル(LLM)は、しばしばブラックボックスとして機能し、エージェントAIアプローチのベースラインに対する優位性を正当化するのは難しい。
本研究は,ICSE 2026,ICSE 2025,FSE 2025,ISSTA 2025の18論文を分析した。
この分析は、現在の研究と潜在的将来の研究の両方において、一般的なアプローチと、SEのためのエージェントAIを評価する際の制限を識別する。
- 参考スコア(独自算出の注目度): 4.411658619208916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of Agentic AI, researchers are increasingly leveraging autonomous agents to address challenges in software engineering (SE). However, the large language models (LLMs) that underpin these agents often function as black boxes, making it difficult to justify the superiority of Agentic AI approaches over baselines. Furthermore, missing information in the evaluation design description frequently renders the reproduction of results infeasible. To synthesize current evaluation practices for Agentic AI in SE, this study analyzes 18 papers on the topic, published or accepted by ICSE 2026, ICSE 2025, FSE 2025, ASE 2025, and ISSTA 2025. The analysis identifies prevailing approaches and their limitations in evaluating Agentic AI for SE, both in current research and potential future studies. To address these shortcomings, this position paper proposes a set of guidelines and recommendations designed to empower reproducible, explainable, and effective evaluations of Agentic AI in software engineering. In particular, we recommend that Agentic AI researchers make their Thought-Action-Result (TAR) trajectories and LLM interaction data, or summarized versions of these artifacts, publicly accessible. Doing so will enable subsequent studies to more effectively analyze the strengths and weaknesses of different Agentic AI approaches. To demonstrate the feasibility of such comparisons, we present a proof-of-concept case study that illustrates how TAR trajectories can support systematic analysis across approaches.
- Abstract(参考訳): Agentic AIの進歩により、研究者たちは、ソフトウェアエンジニアリング(SE)の課題に対処するために、自律エージェントを活用している。
しかしながら、これらのエージェントを支える大きな言語モデル(LLM)は、しばしばブラックボックスとして機能し、エージェントAIアプローチがベースラインよりも優れていることを正当化することは困難である。
さらに、評価設計記述に欠落した情報は、しばしば結果の再生を可能としない。
本研究は、SEにおけるエージェントAIの現在の評価実践を合成するために、ICSE 2026、ICSE 2025、FSE 2025、ASE 2025、ISSTA 2025で公表または受理されたトピックに関する18の論文を分析した。
この分析は、現在の研究と潜在的将来の研究の両方において、一般的なアプローチと、SEのためのエージェントAIを評価する際の制限を識別する。
これらの欠点に対処するために,ソフトウェア工学におけるエージェントAIの再現性,説明性,効果的な評価を促進するためのガイドラインと勧告を提案する。
特に、エージェントAI研究者は、TAR(Thought-Action-Result)トラジェクトリとLLMインタラクションデータ、あるいはこれらのアーティファクトの要約バージョンを公開して公開することを推奨する。
そうすることで、その後の研究は、異なるエージェントAIアプローチの強みと弱みをより効果的に分析できるようになる。
このような比較の実現可能性を示すために,本研究では,TARトラジェクトリが系統解析をどのようにサポートするかを示す,概念実証ケーススタディを提案する。
関連論文リスト
- The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。
我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文 参考訳(メタデータ) (2025-12-16T18:51:23Z) - The Role of AI in Modern Penetration Testing [0.0]
侵入テストはサイバーセキュリティの基礎であり、伝統的に手動の時間集約的なプロセスによって駆動される。
この体系的な文献レビューは、人工知能(AI)が浸透試験をどう変えているかを検証している。
論文 参考訳(メタデータ) (2025-12-13T13:34:31Z) - Enabling Ethical AI: A case study in using Ontological Context for Justified Agentic AI Decisions [0.0]
著者らは、このプロセスがどのように制度的な知識を捉え、応答品質と効率を改善し、制度的な記憶を緩和するかを示している。
決定は明確で検査可能な証拠と専門家と非専門家の両方への推論に基礎を置いている。
論文 参考訳(メタデータ) (2025-12-04T14:06:35Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - The Role of AI in Drug Discovery: Challenges, Opportunities, and
Strategies [97.5153823429076]
この分野でのAIのメリット、課題、欠点についてレビューする。
データ拡張、説明可能なAIの使用、従来の実験手法とAIの統合についても論じている。
論文 参考訳(メタデータ) (2022-12-08T23:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。