論文の概要: ClarifyGPT: Empowering LLM-based Code Generation with Intention
Clarification
- arxiv url: http://arxiv.org/abs/2310.10996v1
- Date: Tue, 17 Oct 2023 04:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-21 14:59:02.711169
- Title: ClarifyGPT: Empowering LLM-based Code Generation with Intention
Clarification
- Title(参考訳): ClarifyGPT:意図の明確化によるLLMベースのコード生成の強化
- Authors: Fangwen Mu, Lin Shi, Song Wang, Zhuohao Yu, Binquan Zhang, Chenxue
Wang, Shichao Liu, Qing Wang
- Abstract要約: ClarifyGPT という新しいフレームワークを導入し,不明瞭な要件を識別する機能を備えた LLM によるコード生成の強化を目指す。
特にClarifyGPTは、コード一貫性チェックを実行することで、所定の要件が曖昧であるかどうかを最初に検出する。
質問応答を受けた後、ClarifyGPTは曖昧な要求を洗練し、それを同じLLMに入力し、最終的なコードソリューションを生成する。
- 参考スコア(独自算出の注目度): 14.471480001770633
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel framework named ClarifyGPT, which aims to enhance code
generation by empowering LLMs with the ability to identify ambiguous
requirements and ask targeted clarifying questions. In particular, ClarifyGPT
first detects whether a given requirement is ambiguous by performing a code
consistency check. If it is ambiguous, ClarifyGPT prompts an LLM to generate
targeted clarifying questions. After receiving question responses, ClarifyGPT
refines the ambiguous requirement and inputs it into the same LLM to generate a
final code solution. To evaluate our ClarifyGPT, we first conduct a human
evaluation involving ten participants who use ClarifyGPT for code generation on
two publicly available benchmarks: MBPP-sanitized and MBPP-ET. The results show
that ClarifyGPT elevates the performance (Pass@1) of GPT-4 from 70.96% to
80.80% on MBPP-sanitized. Furthermore, to perform large-scale automated
evaluations of ClarifyGPT across different LLMs and benchmarks without
requiring user participation, we introduce a high-fidelity simulation method to
simulate user responses. The automated evaluation results also demonstrate that
ClarifyGPT can significantly enhance code generation performance compared to
the baselines. In particular, ClarifyGPT improves the average performance of
GPT-4 and ChatGPT across four benchmarks from 68.02% to 75.75% and from 58.55%
to 67.22%, respectively. We believe that ClarifyGPT can effectively facilitate
the practical application of LLMs in real-world development environments.
- Abstract(参考訳): ClarifyGPT という新しいフレームワークを導入し,不明瞭な要求を識別し,対象とする明確化を問う能力を備えた LLM の強化を目標とする。
特にClarifyGPTは、まずコード一貫性チェックを実行することで、所定の要件が曖昧であるかどうかを検出する。
不明瞭な場合、ClarifyGPT は LLM に目的の明確な質問を生成するよう促す。
質問応答を受けた後、cleargptはあいまいな要求を洗練し、同じllmに入力して最終的なコードソリューションを生成する。
ClarifyGPTを評価するために、まずClarifyGPTを2つの公開ベンチマーク(MBPP-sanitized)とMBPP-ET(MBPP-ET)でコード生成に利用する10人の被験者を対象に、人間による評価を行う。
その結果, ClarifyGPT は GPT-4 の性能を 70.96% から 80.80% まで上昇させた。
さらに,ユーザ参加を必要とせずに,異なるLLMおよびベンチマーク間でClarifyGPTの大規模自動評価を行うために,ユーザ応答をシミュレートする高忠実度シミュレーション手法を提案する。
自動評価の結果,ClarifyGPTはベースラインに比べてコード生成性能を大幅に向上させることができることがわかった。
特にClarifyGPTは、4つのベンチマークでGPT-4とChatGPTの平均性能を68.02%から75.75%に改善し、それぞれ58.55%から67.22%に改善した。
我々はClarifyGPTが現実開発環境におけるLCMの実践的活用を効果的に促進できると考えている。
関連論文リスト
- Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs [7.687215328455751]
オープンAIの利用ポリシーに対するカスタムGPTの自動評価のためのフレームワークを提案する。
我々は,ロマン主義,サイバーセキュリティ,アカデミックGPTの3つのカテゴリにまたがって,722のカスタムGPTを用いた大規模研究を通じて評価を行った。
その結果、分析されたモデルの58.7%は、非準拠の兆候を示し、GPTストアのレビューと承認プロセスの弱点を明らかにしていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T15:19:28Z) - Planning-Driven Programming: A Large Language Model Programming Workflow [8.827173113748701]
大規模言語モデル(LLM)は、コード生成において強力なパフォーマーである。
近年の研究では、LCMのコード生成精度を向上させるために、可視性テストによる継続的プログラム改善が提案されている。
初期コード生成とその後の改良の両方を改善するために,LLMプログラミングワークフロー(LPW)を提案する。
論文 参考訳(メタデータ) (2024-11-21T08:31:06Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators [22.567933207841968]
大規模言語モデル(LLM)とAIアシスタントは、専門家とアマチュアユーザーの両方で、指数関数的な利用増加を経験している。
本研究では,現在のLLMの信頼性を科学コミュニケータとして評価することに焦点を当てる。
複雑な科学概念に埋め込まれた742 Yes/No クエリからなる新しいデータセット SCiPS-QA を導入する。
論文 参考訳(メタデータ) (2024-09-21T06:48:32Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。
本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。
我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文 参考訳(メタデータ) (2024-06-20T09:27:33Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Split and Merge: Aligning Position Biases in LLM-based Evaluators [22.265542509143756]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。
その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。
GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文 参考訳(メタデータ) (2023-09-29T14:38:58Z) - GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。
私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文 参考訳(メタデータ) (2023-09-28T16:43:35Z) - Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。
本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文 参考訳(メタデータ) (2023-06-30T11:32:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。