論文の概要: ClarifyGPT: Empowering LLM-based Code Generation with Intention
Clarification
- arxiv url: http://arxiv.org/abs/2310.10996v1
- Date: Tue, 17 Oct 2023 04:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-21 14:59:02.711169
- Title: ClarifyGPT: Empowering LLM-based Code Generation with Intention
Clarification
- Title(参考訳): ClarifyGPT:意図の明確化によるLLMベースのコード生成の強化
- Authors: Fangwen Mu, Lin Shi, Song Wang, Zhuohao Yu, Binquan Zhang, Chenxue
Wang, Shichao Liu, Qing Wang
- Abstract要約: ClarifyGPT という新しいフレームワークを導入し,不明瞭な要件を識別する機能を備えた LLM によるコード生成の強化を目指す。
特にClarifyGPTは、コード一貫性チェックを実行することで、所定の要件が曖昧であるかどうかを最初に検出する。
質問応答を受けた後、ClarifyGPTは曖昧な要求を洗練し、それを同じLLMに入力し、最終的なコードソリューションを生成する。
- 参考スコア(独自算出の注目度): 14.471480001770633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel framework named ClarifyGPT, which aims to enhance code
generation by empowering LLMs with the ability to identify ambiguous
requirements and ask targeted clarifying questions. In particular, ClarifyGPT
first detects whether a given requirement is ambiguous by performing a code
consistency check. If it is ambiguous, ClarifyGPT prompts an LLM to generate
targeted clarifying questions. After receiving question responses, ClarifyGPT
refines the ambiguous requirement and inputs it into the same LLM to generate a
final code solution. To evaluate our ClarifyGPT, we first conduct a human
evaluation involving ten participants who use ClarifyGPT for code generation on
two publicly available benchmarks: MBPP-sanitized and MBPP-ET. The results show
that ClarifyGPT elevates the performance (Pass@1) of GPT-4 from 70.96% to
80.80% on MBPP-sanitized. Furthermore, to perform large-scale automated
evaluations of ClarifyGPT across different LLMs and benchmarks without
requiring user participation, we introduce a high-fidelity simulation method to
simulate user responses. The automated evaluation results also demonstrate that
ClarifyGPT can significantly enhance code generation performance compared to
the baselines. In particular, ClarifyGPT improves the average performance of
GPT-4 and ChatGPT across four benchmarks from 68.02% to 75.75% and from 58.55%
to 67.22%, respectively. We believe that ClarifyGPT can effectively facilitate
the practical application of LLMs in real-world development environments.
- Abstract(参考訳): ClarifyGPT という新しいフレームワークを導入し,不明瞭な要求を識別し,対象とする明確化を問う能力を備えた LLM の強化を目標とする。
特にClarifyGPTは、まずコード一貫性チェックを実行することで、所定の要件が曖昧であるかどうかを検出する。
不明瞭な場合、ClarifyGPT は LLM に目的の明確な質問を生成するよう促す。
質問応答を受けた後、cleargptはあいまいな要求を洗練し、同じllmに入力して最終的なコードソリューションを生成する。
ClarifyGPTを評価するために、まずClarifyGPTを2つの公開ベンチマーク(MBPP-sanitized)とMBPP-ET(MBPP-ET)でコード生成に利用する10人の被験者を対象に、人間による評価を行う。
その結果, ClarifyGPT は GPT-4 の性能を 70.96% から 80.80% まで上昇させた。
さらに,ユーザ参加を必要とせずに,異なるLLMおよびベンチマーク間でClarifyGPTの大規模自動評価を行うために,ユーザ応答をシミュレートする高忠実度シミュレーション手法を提案する。
自動評価の結果,ClarifyGPTはベースラインに比べてコード生成性能を大幅に向上させることができることがわかった。
特にClarifyGPTは、4つのベンチマークでGPT-4とChatGPTの平均性能を68.02%から75.75%に改善し、それぞれ58.55%から67.22%に改善した。
我々はClarifyGPTが現実開発環境におけるLCMの実践的活用を効果的に促進できると考えている。
関連論文リスト
- When LLM-based Code Generation Meets the Software Development Process [50.82665351100067]
本稿では,ソフトウェア工学の確立した実践に触発されたコード生成フレームワークであるLCGを紹介する。
LLMエージェントは、LCGWaterfall、LCGTDD、LCGScrumといった様々なソフトウェアプロセスモデルをエミュレートする。
我々は,HumanEval,HumanEval-ET,MBPP,MBPP-ETの4つのコード生成ベンチマークでLCGを評価した。
論文 参考訳(メタデータ) (2024-03-23T14:04:48Z) - InfiCoder-Eval: Systematically Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiCoder-Evalは、コードのQAベンチマークである。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiCoder-Eval 上で 80 以上のコード LLM に対して,系統的な評価を行い,一連の知見を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Federated Recommendation via Hybrid Retrieval Augmented Generation [16.228589300933262]
Federated Recommendation (FR)は、プライバシ保護のレコメンデーションを可能にする。
推薦者としての大きな言語モデル(LLM)は、様々なレコメンデーションシナリオで有効であることが証明されている。
GPT-FedRecは,ChatGPTと新しいハイブリッド検索拡張生成(RAG)機構を利用した,連合型レコメンデーションフレームワークである。
論文 参考訳(メタデータ) (2024-03-07T06:38:41Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - Automated title and abstract screening for scoping reviews using the
GPT-4 Large Language Model [0.0]
GPTscreenRは、GPT-4 Large Language Model (LLM) を使用してソースを自動的にスクリーニングするR統計プログラミング言語のパッケージである。
GPTscreenRは、コンセンサス・ヒューマン・レビュアーの決定に対する検証において、感度71%、特異性89%、全体的な精度84%という、代替のゼロショット・テクニックと同様に実行された。
論文 参考訳(メタデータ) (2023-11-14T05:30:43Z) - Split and Merge: Aligning Position Biases in Large Language Model based
Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。
我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。
ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文 参考訳(メタデータ) (2023-08-23T16:32:54Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。