論文の概要: Exploring the Challenges and Opportunities of AI-assisted Codebase Generation
- arxiv url: http://arxiv.org/abs/2508.07966v1
- Date: Mon, 11 Aug 2025 13:26:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.112359
- Title: Exploring the Challenges and Opportunities of AI-assisted Codebase Generation
- Title(参考訳): AIによるコードベース生成の課題と機会を探る
- Authors: Philipp Eibl, Sadra Sabouri, Souti Chattopadhyay,
- Abstract要約: 最近のAIコードアシスタントは、より複雑なコンテキストを処理する能力を大幅に改善している。
初期の逸話では興奮の報告があったが、スニペットレベルのコードアシスタントに比べて採用頻度は低い。
本稿では、開発者がCBAとどのように相互作用し、CBAが開発者のニーズに合わない理由と理由について述べる。
- 参考スコア(独自算出の注目度): 1.1490553197099562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent AI code assistants have significantly improved their ability to process more complex contexts and generate entire codebases based on a textual description, compared to the popular snippet-level generation. These codebase AI assistants (CBAs) can also extend or adapt codebases, allowing users to focus on higher-level design and deployment decisions. While prior work has extensively studied the impact of snippet-level code generation, this new class of codebase generation models is relatively unexplored. Despite initial anecdotal reports of excitement about these agents, they remain less frequently adopted compared to snippet-level code assistants. To utilize CBAs better, we need to understand how developers interact with CBAs, and how and why CBAs fall short of developers' needs. In this paper, we explored these gaps through a counterbalanced user study and interview with (n = 16) students and developers working on coding tasks with CBAs. We found that participants varied the information in their prompts, like problem description (48% of prompts), required functionality (98% of prompts), code structure (48% of prompts), and their prompt writing process. Despite various strategies, the overall satisfaction score with generated codebases remained low (mean = 2.8, median = 3, on a scale of one to five). Participants mentioned functionality as the most common factor for dissatisfaction (77% of instances), alongside poor code quality (42% of instances) and communication issues (25% of instances). We delve deeper into participants' dissatisfaction to identify six underlying challenges that participants faced when using CBAs, and extracted five barriers to incorporating CBAs into their workflows. Finally, we surveyed 21 commercial CBAs to compare their capabilities with participant challenges and present design opportunities for more efficient and useful CBAs.
- Abstract(参考訳): 最近のAIコードアシスタントは、一般的なスニペットレベルの生成と比較して、より複雑なコンテキストを処理し、テキスト記述に基づいてコードベース全体を生成する能力を大幅に改善している。
これらのコードベースAIアシスタント(CBA)は、コードベースを拡張したり、適応したりすることもできる。
以前の研究はスニペットレベルのコード生成の影響を幅広く研究してきたが、この新しいコードベース生成モデルのクラスは比較的探索されていない。
当初、これらのエージェントに対する興奮の報告があったが、スニペットレベルのコードアシスタントに比べて採用頻度は低い。
CBAをより活用するためには、開発者がCBAとどのようにやりとりするか、CBAが開発者のニーズに合わない理由と理由を理解する必要があります。
本稿では,これらのギャップを,CBAを用いたコーディングタスクに取り組む学生や開発者を対象に,相反するユーザスタディと,(n = 16)学生へのインタビューを通じて検討した。
参加者は,問題記述(48%のプロンプト),必要な機能(98%のプロンプト),コード構造(48%のプロンプト),即時書き込みプロセスなど,プロンプトの情報を多用した。
様々な戦略にもかかわらず、生成されたコードベースによる全体的な満足度スコアは低いままだった(平均は2.8、中央値は3)。
参加者は、コード品質の低さ(インスタンスの42%)と通信の問題(インスタンスの25%)に加えて、不満(インスタンスの77%)の最も一般的な要因として機能を挙げている。
参加者の不満を深く掘り下げて、参加者がCBAを使用する際に直面する6つの課題を特定し、CBAをワークフローに組み込むための5つの障壁を抽出しました。
最後に、21の商用CBAを調査し、その能力と参加者の課題を比較し、より効率的で有用なCBAの設計機会を提示した。
関連論文リスト
- CodeAssistBench (CAB): Dataset & Benchmarking for Multi-turn Chat-Based Code Assistance [18.886738819470086]
我々は,マルチターンプログラミング支援を評価するための最初のベンチマークフレームワークであるCodeAssistBench (CAB)を紹介した。
既存のプログラミングQ&Aベンチマークとは異なり、CABは質問に関連するGitHubの問題からスケーラブルなデータセットを自動的に生成する。
このフレームワークを用いて,231リポジトリにわたる3,286の現実世界のプログラミング質問をテストセットとして構築した。
論文 参考訳(メタデータ) (2025-07-14T17:19:00Z) - Code with Me or for Me? How Increasing AI Automation Transforms Developer Workflows [66.1850490474361]
コーディングエージェントとの開発者インタラクションを探求する最初の学術的研究を行う。
私たちは、GitHub CopilotとOpenHandsの2つの主要なコピロとエージェントコーディングアシスタントを評価します。
この結果から、エージェントは、コピロトを超越した方法で開発者を支援する可能性を示唆している。
論文 参考訳(メタデータ) (2025-07-10T20:12:54Z) - Assessing the Answerability of Queries in Retrieval-Augmented Code Generation [7.68409881755304]
本研究は,有効な回答が生成できるかどうかを評価するための課題を提案する。
我々は、Retrieval-augmented Code Generability Evaluation (RaCGEval)と呼ばれるベンチマークデータセットを構築し、このタスクを実行するモデルの性能を評価する。
論文 参考訳(メタデータ) (2024-11-08T13:09:14Z) - CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models [106.11371409170818]
大規模言語モデル(LLM)は、生成されたコードを自己定義し、自律的に改善する機能を持つエージェントとして機能する。
コード生成プロセスの異なる段階における探索空間を効率的に探索するLLMエージェントのためのフレームワークであるCodeTreeを提案する。
具体的には、異なるコーディング戦略を明示的に探求し、対応するコーディングソリューションを生成し、その後、ソリューションを洗練するために統合されたツリー構造を採用しました。
論文 参考訳(メタデータ) (2024-11-07T00:09:54Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Generating Java Methods: An Empirical Assessment of Four AI-Based Code
Assistants [5.32539007352208]
私たちは、人気のあるAIベースのコードアシスタントであるGitHub Copilot、Tabnine、ChatGPT、Google Bardの4つの有効性を評価します。
その結果、Copilotは他のテクニックよりも正確であることが多いが、他のアプローチによって完全に仮定されるアシスタントは存在しないことが判明した。
論文 参考訳(メタデータ) (2024-02-13T12:59:20Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。
本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。
我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文 参考訳(メタデータ) (2021-05-27T15:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。