論文の概要: Developer-LLM Conversations: An Empirical Study of Interactions and Generated Code Quality
- arxiv url: http://arxiv.org/abs/2509.10402v1
- Date: Fri, 12 Sep 2025 16:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.16907
- Title: Developer-LLM Conversations: An Empirical Study of Interactions and Generated Code Quality
- Title(参考訳): 開発者とLLMの会話: インタラクションとコード品質の生成に関する実証的研究
- Authors: Suzhen Zhong, Ying Zou, Bram Adams,
- Abstract要約: 大規模言語モデル(LLM)は現代のソフトウェア開発に不可欠なものになりつつある。
実世界の開発者とLLMの会話のデータセットであるCodeChatを活用しています。
LLMレスポンスは開発者のプロンプトよりもかなり長いことが分かりました。
- 参考スコア(独自算出の注目度): 4.05144752916486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are becoming integral to modern software development workflows, assisting developers with code generation, API explanation, and iterative problem-solving through natural language conversations. Despite widespread adoption, there is limited understanding of how developers interact with LLMs in practice and how these conversational dynamics influence task outcomes, code quality, and software engineering workflows. To address this, we leverage CodeChat, a large dataset comprising 82,845 real-world developer-LLM conversations, containing 368,506 code snippets generated across over 20 programming languages, derived from the WildChat dataset. We find that LLM responses are substantially longer than developer prompts, with a median token-length ratio of 14:1. Multi-turn conversations account for 68% of the dataset and often evolve due to shifting requirements, incomplete prompts, or clarification requests. Topic analysis identifies web design (9.6% of conversations) and neural network training (8.7% of conversations) as the most frequent LLM-assisted tasks. Evaluation across five languages (i.e., Python, JavaScript, C++, Java, and C#) reveals prevalent and language-specific issues in LLM-generated code: generated Python and JavaScript code often include undefined variables (83.4% and 75.3% of code snippets, respectively); Java code lacks required comments (75.9%); C++ code frequently omits headers (41.1%) and C# code shows unresolved namespaces (49.2%). During a conversation, syntax and import errors persist across turns; however, documentation quality in Java improves by up to 14.7%, and import handling in Python improves by 3.7% over 5 turns. Prompts that point out mistakes in code generated in prior turns and explicitly request a fix are most effective for resolving errors.
- Abstract(参考訳): 大規模言語モデル(LLM)は、開発者のコード生成、API説明、自然言語会話による反復的な問題解決を支援する、現代のソフトウェア開発ワークフローに不可欠なものになりつつある。
広く採用されているにもかかわらず、開発者が実際にLLMと対話する方法や、これらの会話のダイナミクスがタスク結果、コード品質、ソフトウェアエンジニアリングワークフローにどのように影響するかについては、限定的な理解がある。
これを解決するために、私たちは、WildChatデータセットから派生した20以上のプログラミング言語で生成される368,506個のコードスニペットを含む、82,845の現実世界の開発者とLLMの会話からなる大規模なデータセットであるCodeChatを活用しました。
LLM応答は開発者のプロンプトよりもかなり長く,トークン長の中央値が14:1であることがわかった。
マルチターン会話はデータセットの68%を占め、要求の変化、不完全なプロンプト、明確化要求のためにしばしば進化する。
トピック分析はウェブデザイン(会話の9.6%)とニューラルネットワークトレーニング(会話の8.7%)を最も頻繁なLCM支援タスクとしている。
5つの言語(例えば、Python、JavaScript、C++、Java、C#)における評価では、LLM生成コードの一般的な問題と言語固有の問題を明らかにしている: 生成されたPythonとJavaScriptコードは、それぞれ83.4%と75.3%のコードスニペットを含むことが多い。Javaコードは、必要なコメントを欠いている(75.9%)、C++コードはヘッダーを省略する(41.1%)、C#コードは未解決の名前空間(49.2%)を示す。
しかし、Javaのドキュメント品質は最大14.7%向上し、Pythonのインポート処理は5ターンで3.7%向上している。
前のターンで生成されたコードのミスを指摘し、修正を明示的に要求するプロンプトは、エラーを解決するのに最も効果的である。
関連論文リスト
- Anka: A Domain-Specific Language for Reliable LLM Code Generation [0.0]
大規模言語モデル(LLM)は、複雑な多段階プログラミングタスクの体系的なエラーを示す。
明示的で制約のある構文で設計されたデータ変換パイプライン用のドメイン固有言語()であるAnkaを紹介します。
Ankaは100のベンチマーク問題に対して99.9%のパース成功と95.8%のタスク精度を達成した。
論文 参考訳(メタデータ) (2025-12-29T05:28:17Z) - A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。
85.7%は単一のプログラミング言語に重点を置いている。
94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。
80%以上は平均10件未満のテストケースを含む。
論文 参考訳(メタデータ) (2025-09-30T11:30:08Z) - IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.1875460416205]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - MapCoder: Multi-Agent Code Generation for Competitive Problem Solving [3.3856216159724983]
マルチエージェントプロンプトを利用したコード生成タスクに新たなアプローチを導入する。
私たちのフレームワークであるMapCoderは、プログラム合成の段階をエミュレートするために設計された4つのLLMエージェントで構成されています。
我々の手法は、様々なプログラミング言語で一貫して優れた性能を提供する。
論文 参考訳(メタデータ) (2024-05-18T22:10:15Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Large Language Models Should Ask Clarifying Questions to Increase
Confidence in Generated Code [0.7252027234425334]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。
LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
本稿では,LLM生成コミュニケータを用いて,問題記述や生成されたコードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:33:05Z) - Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability
of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。
生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-08-20T18:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。