論文の概要: What Challenges Do Developers Face in AI Agent Systems? An Empirical Study on Stack Overflow
- arxiv url: http://arxiv.org/abs/2510.25423v1
- Date: Wed, 29 Oct 2025 11:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.489531
- Title: What Challenges Do Developers Face in AI Agent Systems? An Empirical Study on Stack Overflow
- Title(参考訳): AIエージェントシステムで開発者が直面する課題 - スタックオーバーフローに関する実証的研究
- Authors: Ali Asgari, Annibale Panichella, Pouria Derakhshanfar, Mitchell Olsthoorn,
- Abstract要約: Stack Overflowは、世界最大の開発者中心のQとAプラットフォームです。
タグ拡張とフィルタリングによる開発者の課題の分類を構築し、トピックモデリングにLDA-MALLETを適用し、結果のテーマを手作業で検証・ラベル付けする。
我々の分析では、実行時統合、依存性管理、オーケストレーションの複雑さ、評価信頼性に関連する77の技術的課題を含む、繰り返し発生する問題の7つの主要な領域を明らかにしている。
- 参考スコア(独自算出の注目度): 12.179548969182571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents have rapidly gained popularity across research and industry as systems that extend large language models with additional capabilities to plan, use tools, remember, and act toward specific goals. Yet despite their promise, developers face persistent and often underexplored challenges when building, deploying, and maintaining these emerging systems. To identify these challenges, we study developer discussions on Stack Overflow, the world's largest developer-focused Q and A platform with about 60 million questions and answers and 30 million users. We construct a taxonomy of developer challenges through tag expansion and filtering, apply LDA-MALLET for topic modeling, and manually validate and label the resulting themes. Our analysis reveals seven major areas of recurring issues encompassing 77 distinct technical challenges related to runtime integration, dependency management, orchestration complexity, and evaluation reliability. We further quantify topic popularity and difficulty to identify which issues are most common and hardest to resolve, map the tools and programming languages used in agent development, and track their evolution from 2021 to 2025 in relation to major AI model and framework releases. Finally, we present the implications of our results, offering concrete guidance for practitioners, researchers, and educators on agent reliability and developer support.
- Abstract(参考訳): AIエージェントは、計画、ツールの使用、記憶、特定の目標に向けて行動するための追加機能を備えた大きな言語モデルを拡張するシステムとして、研究や産業で急速に人気を集めている。
しかし、その約束に反して、開発者は、これらの新興システムの構築、デプロイ、保守において、永続的で、しばしば過小評価される課題に直面します。
これらの課題を特定するために,世界で最大規模の開発者中心のQとAプラットフォームであるStack Overflowに関する開発者の議論を調査した。
タグ拡張とフィルタリングによる開発者の課題の分類を構築し、トピックモデリングにLDA-MALLETを適用し、結果のテーマを手作業で検証・ラベル付けする。
我々の分析では、実行時統合、依存性管理、オーケストレーションの複雑さ、評価信頼性に関連する77の技術的課題を含む、繰り返し発生する問題の7つの主要な領域を明らかにしている。
我々は、どの問題が最も一般的で最も解決が難しいのかを定量化し、エージェント開発で使用されるツールやプログラミング言語をマッピングし、主要なAIモデルとフレームワークのリリースに関連する2021年から2025年までの進化を追跡する。
最後に,エージェントの信頼性と開発者サポートに関する実践者,研究者,教育者に具体的なガイダンスを提供する。
関連論文リスト
- Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey [59.3507264893654]
課題解決は、現実世界の開発に不可欠な複雑なソフトウェアエンジニアリングタスクです。
SWE-benchのようなベンチマークでは、このタスクは大規模言語モデルでは極めて困難であることが判明した。
本稿では,この新興領域を体系的に調査する。
論文 参考訳(メタデータ) (2026-01-15T18:55:03Z) - LLM-Based Agentic Systems for Software Engineering: Challenges and Opportunities [0.03437656066916039]
本論文は,LLMに基づくマルチエージェントシステムの新しいパラダイムを体系的にレビューする。
言語モデルの選択、SE評価ベンチマーク、最先端のエージェントフレームワーク、通信プロトコルなど、幅広いトピックを掘り下げる。
論文 参考訳(メタデータ) (2026-01-14T19:28:30Z) - Prompting in Practice: Investigating Software Developers' Use of Generative AI Tools [17.926187565860232]
生成人工知能(GenAI)ツールの統合は、ソフトウェア開発を根本的に変えた。
本研究は,ソフトウェア技術者がGenAIツールをプロフェッショナルな実践に統合する方法について,体系的な調査を行ったものである。
我々は、開発プロセス全体でAIの使用パターンを理解するために、アクティブなGenAIユーザ72人を含む91人のソフトウェアエンジニアを調査した。
論文 参考訳(メタデータ) (2025-10-07T15:02:22Z) - AI Agentic Programming: A Survey of Techniques, Challenges, and Opportunities [8.086360127362815]
大規模言語モデル(LLM)ベースのコーディングエージェントは、コンパイラ、デバッガ、バージョン管理システムなどのツールを自律的に計画し、実行し、操作する。
従来のコード生成とは異なり、これらのエージェントは目標を分解し、多段階プロセスをコーディネートし、フィードバックに基づいて適応し、ソフトウェア開発のプラクティスを再構築する。
論文 参考訳(メタデータ) (2025-08-15T00:14:31Z) - Deep Research Agents: A Systematic Examination And Roadmap [109.53237992384872]
Deep Research (DR) エージェントは複雑な多ターン情報研究タスクに取り組むように設計されている。
本稿では,DRエージェントを構成する基礎技術とアーキテクチャコンポーネントの詳細な分析を行う。
論文 参考訳(メタデータ) (2025-06-22T16:52:48Z) - From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review [1.4929298667651645]
大規模言語モデルと自律型AIエージェントを評価するベンチマークを2019年から2025年にかけて開発した。
本稿では,知識推論,数学的問題解決,コード生成とソフトウェア工学,事実的根拠と検索,ドメイン固有評価,マルチモーダルおよび具体的タスク,タスクオーケストレーション,インタラクティブアセスメントを対象とする約60のベンチマークの分類法を提案する。
我々は、材料科学、バイオメディカルリサーチ、学術思想、ソフトウェア工学、合成データ生成、数学的問題解決、地理情報システム、マルチメディア、医療、金融における自律型AIエージェントの現実的な応用を提示する。
論文 参考訳(メタデータ) (2025-04-28T11:08:22Z) - Developer Challenges on Large Language Models: A Study of Stack Overflow and OpenAI Developer Forum Posts [2.704899832646869]
大規模言語モデル(LLM)は、様々なドメインにまたがる例外的な機能のために広く普及している。
本研究は,Stack OverflowとOpenAI Developer Forum上でのコミュニティインタラクションを分析することによって,開発者の課題を調査する。
論文 参考訳(メタデータ) (2024-11-16T19:38:27Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - Voices from the Frontier: A Comprehensive Analysis of the OpenAI Developer Forum [5.667013605202579]
OpenAIの先進的な大規模言語モデル(LLM)は自然言語処理に革命をもたらし、開発者は革新的なアプリケーションを作成できるようになった。
本稿では,OpenAI Developer Forumを包括的に分析する。
本研究では,(1)人気傾向とユーザエンゲージメントパターン,(2)開発者が直面する課題や関心事の分類に焦点をあてる。
論文 参考訳(メタデータ) (2024-08-03T06:57:43Z) - OlympicArena: Benchmarking Multi-discipline Cognitive Reasoning for Superintelligent AI [73.75520820608232]
我々は,11,163のバイリンガル問題を含む,テキストのみとインターリーブされたテキストイメージのモダリティを紹介する。
これらの課題には、7つのフィールドと62の国際オリンピック大会にわたる幅広い規律が含まれており、データ漏洩について厳格に調査されている。
我々の評価によると、GPT-4oのような先進モデルでさえ、複雑な推論とマルチモーダル統合における現在のAI制限を反映して、全体的な精度は39.97%しか達成していない。
論文 参考訳(メタデータ) (2024-06-18T16:20:53Z) - A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。
50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。
発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文 参考訳(メタデータ) (2024-03-21T08:54:56Z) - On the Challenges and Opportunities in Generative AI [155.030542942979]
私たちは、現在の大規模な生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの根本的な欠点を示しています。
我々は、研究者に実りある研究の方向性を探るための洞察を提供することを目標とし、より堅牢でアクセスしやすい生成AIソリューションの開発を促進する。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。