Fugu-MT 論文翻訳(概要): Large Language Models Should Ask Clarifying Questions to Increase Confidence in Generated Code

論文の概要: Large Language Models Should Ask Clarifying Questions to Increase Confidence in Generated Code

arxiv url: http://arxiv.org/abs/2308.13507v2
Date: Mon, 22 Jan 2024 18:54:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 21:03:23.025442
Title: Large Language Models Should Ask Clarifying Questions to Increase Confidence in Generated Code
Title（参考訳）: 大規模言語モデルは、生成コードの信頼性を高めるために質問を明確にすべきである
Authors: Jie JW Wu
Abstract要約: 大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。本稿では,LLM生成コミュニケータを用いて,問題記述や生成されたコードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。
参考スコア（独自算出の注目度）: 0.7252027234425334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have significantly improved the ability to perform tasks in the field of code generation. However, there is still a gap between LLMs being capable coders and being top-tier software engineers. Based on the observation that toplevel software engineers often ask clarifying questions to reduce ambiguity in both requirements and coding solutions, I argue that the same should be applied to LLMs for code generation tasks. By asking probing questions in various topics before generating the final code, the challenges of programming with LLMs, such as unclear intent specification, lack of computational thinking, and undesired code quality, may be alleviated. This, in turn, increases confidence in the generated code. In this work, I explore how to leverage better communication skills to achieve greater confidence in generated code. I propose a communication-centered process that uses an LLM-generated communicator to identify issues with high ambiguity or low confidence in problem descriptions and generated code. I then ask clarifying questions to obtain responses from users for refining the code.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。しかし、LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。トップレベルのソフトウェアエンジニアが要求とコーディングソリューションのあいまいさを減らすために明確な質問をすることが多いことを踏まえると、コード生成タスクにはLLMにも同じように適用されるべきである、と私は主張する。最終コードを生成する前に様々なトピックで質問をすることで、意図不明な仕様、計算思考の欠如、望ましくないコード品質といったLCMを使ったプログラミングの課題が軽減される可能性がある。これにより、生成されたコードの信頼性が向上する。本稿では,生成コードに対する信頼性を高めるために,優れたコミュニケーションスキルを活用する方法について検討する。本稿では,llm生成コミュニケータを用いて,問題記述や生成コードに対する曖昧さや信頼性の低い問題を識別する通信中心プロセスを提案する。次に、コードを精査するユーザからの回答を得るために、明確な質問を尋ねます。

関連論文リスト

CodeSimpleQA: Scaling Factuality in Code Large Language Models [55.705748501461294]
本稿では,コード関連質問への回答において,LLMの実際の精度を評価するための総合的なベンチマークであるCodeSimpleQAを提案する。また,66万サンプルの大規模インストラクションコーパスであるCodeSimpleQA-Instructを作成し,教師付き微調整と強化学習を組み合わせたポストトレーニングフレームワークを開発した。
論文参考訳（メタデータ） (2025-12-22T14:27:17Z)
Uncovering Systematic Failures of LLMs in Verifying Code Against Natural Language Specifications [0.6813925418351435]
大規模言語モデル(LLM)はソフトウェア開発において不可欠なツールとなり、要求工学、コード生成、レビュータスクに広く利用されている。本稿では,LLMが自然言語の要求に適合するかどうかを評価する上で,体系的に失敗していることを明らかにする。以上の結果から,LCMは要件を満たすことのできないコード実装や潜在的な欠陥を含むコード実装を誤って分類することが多いことが判明した。
論文参考訳（メタデータ） (2025-08-17T13:07:26Z)
Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文参考訳（メタデータ） (2025-08-01T15:17:34Z)
IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。 IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文参考訳（メタデータ） (2025-07-30T08:08:48Z)
Curiosity by Design: An LLM-based Coding Assistant Asking Clarification Questions [4.2689345057164205]
この作業は、人間のコードレビュープロセスを模倣するLLMベースのコーディングアシスタントを構築することを目的としている。エンドツーエンドシステムには,(1)不明瞭なプログラミング関連クエリを検出するために訓練されたクエリ,(2)明確化質問を生成する微調整LDMが含まれている。
論文参考訳（メタデータ） (2025-07-28T19:10:57Z)
Can Code Language Models Learn Clarification-Seeking Behaviors? [4.788534218705066]
ClarifyCoderは,合成データ生成と命令調整を行うフレームワークである。 ClarifyCoderは,あいまいなタスクに対して,コミュニケーション率63%,質問率52%を達成した。
論文参考訳（メタデータ） (2025-04-23T00:34:39Z)
Steering Large Language Models between Code Execution and Textual Reasoning [22.279107036500083]
テキスト推論は、数学、論理学、最適化、探索における課題を伴うタスクの解決に固有の制限がある。最近リリースされたOpenAI GPT Code InterpreterとAutoGenのようなマルチエージェントフレームワークは、コード生成と実行を統合するのに顕著な能力を示している。 LLMのコード/テキスト生成を良くし、顕著な改善を実現するための3つの方法を提案する。
論文参考訳（メタデータ） (2024-10-04T15:44:47Z)
Beyond Code Generation: Assessing Code LLM Maturity with Postconditions [9.521621889147362]
本稿では,ポストコンディショニング問題に基づく大規模言語モデルの成熟度モデルを提案する。 EvalPlusデータセットを条件付きテストベンチマークに拡張し、いくつかのオープンソースモデルを評価する。
論文参考訳（メタデータ） (2024-07-19T08:34:30Z)
Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文参考訳（メタデータ） (2024-05-31T22:06:18Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。コードプロンプトは複数のLLMに対して高速に向上することがわかった。 GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文参考訳（メタデータ） (2024-01-18T15:32:24Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
Test-Case-Driven Programming Understanding in Large Language Models for Better Code Generation [15.166827643436346]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。 muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文参考訳（メタデータ） (2023-09-28T02:58:07Z)
Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文参考訳（メタデータ） (2023-08-20T18:36:28Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。