Fugu-MT 論文翻訳(概要): ClarifyGPT: Empowering LLM-based Code Generation with Intention Clarification

論文の概要: ClarifyGPT: Empowering LLM-based Code Generation with Intention Clarification

arxiv url: http://arxiv.org/abs/2310.10996v1
Date: Tue, 17 Oct 2023 04:57:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-21 14:59:02.711169
Title: ClarifyGPT: Empowering LLM-based Code Generation with Intention Clarification
Title（参考訳）: ClarifyGPT:意図の明確化によるLLMベースのコード生成の強化
Authors: Fangwen Mu, Lin Shi, Song Wang, Zhuohao Yu, Binquan Zhang, Chenxue Wang, Shichao Liu, Qing Wang
Abstract要約: ClarifyGPT という新しいフレームワークを導入し,不明瞭な要件を識別する機能を備えた LLM によるコード生成の強化を目指す。特にClarifyGPTは、コード一貫性チェックを実行することで、所定の要件が曖昧であるかどうかを最初に検出する。質問応答を受けた後、ClarifyGPTは曖昧な要求を洗練し、それを同じLLMに入力し、最終的なコードソリューションを生成する。
参考スコア（独自算出の注目度）: 14.471480001770633
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a novel framework named ClarifyGPT, which aims to enhance code generation by empowering LLMs with the ability to identify ambiguous requirements and ask targeted clarifying questions. In particular, ClarifyGPT first detects whether a given requirement is ambiguous by performing a code consistency check. If it is ambiguous, ClarifyGPT prompts an LLM to generate targeted clarifying questions. After receiving question responses, ClarifyGPT refines the ambiguous requirement and inputs it into the same LLM to generate a final code solution. To evaluate our ClarifyGPT, we first conduct a human evaluation involving ten participants who use ClarifyGPT for code generation on two publicly available benchmarks: MBPP-sanitized and MBPP-ET. The results show that ClarifyGPT elevates the performance (Pass@1) of GPT-4 from 70.96% to 80.80% on MBPP-sanitized. Furthermore, to perform large-scale automated evaluations of ClarifyGPT across different LLMs and benchmarks without requiring user participation, we introduce a high-fidelity simulation method to simulate user responses. The automated evaluation results also demonstrate that ClarifyGPT can significantly enhance code generation performance compared to the baselines. In particular, ClarifyGPT improves the average performance of GPT-4 and ChatGPT across four benchmarks from 68.02% to 75.75% and from 58.55% to 67.22%, respectively. We believe that ClarifyGPT can effectively facilitate the practical application of LLMs in real-world development environments.
Abstract（参考訳）: ClarifyGPT という新しいフレームワークを導入し,不明瞭な要求を識別し,対象とする明確化を問う能力を備えた LLM の強化を目標とする。特にClarifyGPTは、まずコード一貫性チェックを実行することで、所定の要件が曖昧であるかどうかを検出する。不明瞭な場合、ClarifyGPT は LLM に目的の明確な質問を生成するよう促す。質問応答を受けた後、cleargptはあいまいな要求を洗練し、同じllmに入力して最終的なコードソリューションを生成する。 ClarifyGPTを評価するために、まずClarifyGPTを2つの公開ベンチマーク(MBPP-sanitized)とMBPP-ET(MBPP-ET)でコード生成に利用する10人の被験者を対象に、人間による評価を行う。その結果, ClarifyGPT は GPT-4 の性能を 70.96% から 80.80% まで上昇させた。さらに,ユーザ参加を必要とせずに,異なるLLMおよびベンチマーク間でClarifyGPTの大規模自動評価を行うために,ユーザ応答をシミュレートする高忠実度シミュレーション手法を提案する。自動評価の結果,ClarifyGPTはベースラインに比べてコード生成性能を大幅に向上させることができることがわかった。特にClarifyGPTは、4つのベンチマークでGPT-4とChatGPTの平均性能を68.02%から75.75%に改善し、それぞれ58.55%から67.22%に改善した。我々はClarifyGPTが現実開発環境におけるLCMの実践的活用を効果的に促進できると考えている。

関連論文リスト

Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach [6.289275189295223]
本稿では,コード複雑度と大言語モデル生成コードの成功との関係について検討する。提案手法では,既往の故障した出力からの複雑性メトリクスに基づいて,LCMに正しいコードを生成するための反復的フィードバック手法を提案する。実験結果から,本手法は特に小型LCMでは顕著な改善が見られた。
論文参考訳（メタデータ） (2025-05-29T19:06:14Z)
Towards Safer Chatbots: A Framework for Policy Compliance Evaluation of Custom GPTs [7.687215328455751]
オープンAIの利用ポリシーに対するカスタムGPTの自動評価のためのフレームワークを提案する。我々は,ロマン主義,サイバーセキュリティ,アカデミックGPTの3つのカテゴリにまたがって,722のカスタムGPTを用いた大規模研究を通じて評価を行った。その結果、分析されたモデルの58.7%は、非準拠の兆候を示し、GPTストアのレビューと承認プロセスの弱点を明らかにしていることが明らかとなった。
論文参考訳（メタデータ） (2025-02-03T15:19:28Z)
Planning-Driven Programming: A Large Language Model Programming Workflow [8.827173113748701]
大規模言語モデル(LLM)は自然言語処理タスクに強い性能を持つ。最近の研究は、コード生成精度を改善する複数のサンプリング手法や、コードを洗練するためのプログラム修復手法を提案する。初期コード生成とその後の改良の両方を改善するために,LLMプログラミングワークフロー(LPW)を提案する。
論文参考訳（メタデータ） (2024-11-21T08:31:06Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
Can LLMs replace Neil deGrasse Tyson? Evaluating the Reliability of LLMs as Science Communicators [22.567933207841968]
大規模言語モデル(LLM)とAIアシスタントは、専門家とアマチュアユーザーの両方で、指数関数的な利用増加を経験している。本研究では,現在のLLMの信頼性を科学コミュニケータとして評価することに焦点を当てる。複雑な科学概念に埋め込まれた742 Yes/No クエリからなる新しいデータセット SCiPS-QA を導入する。
論文参考訳（メタデータ） (2024-09-21T06:48:32Z)
See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文参考訳（メタデータ） (2024-08-16T19:01:52Z)
MACAROON: Training Vision-Language Models To Be Your Engaged Partners [95.32771929749514]
大規模視覚言語モデル(LVLM)は、質問が曖昧でラベルが付されていない場合でも詳細な応答を生成する。本研究では,LVLMを受動的回答提供者から積極的参加パートナーへ移行することを目的とする。我々は、LVLMに対して、ラベルなし質問に対するコントラスト応答対を自律的に生成するように指示する、ContrAstive pReference Optimizationのための自己iMaginAtionであるMACAROONを紹介する。
論文参考訳（メタデータ） (2024-06-20T09:27:33Z)
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは,大規模言語モデルのマルチエージェント環境におけるゲーミング能力を評価するための新しいフレームワークである。 $gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。その結果, GPT-3.5は強い強靭性を示すが, 限定的な一般化性を示し, Chain-of-Thoughtのような手法で拡張できることがわかった。
論文参考訳（メタデータ） (2024-03-18T14:04:47Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Split and Merge: Aligning Position Biases in Large Language Model based Evaluators [23.38206418382832]
PortIAは、人間の比較戦略を模倣して位置バイアスを校正するアライメントベースのシステムである。その結果, Portia はテスト対象のモデルと比較形態の整合性を著しく向上させることがわかった。 GPT-4モデルにおける位置バイアスの約80%を修正し、一貫性を98%まで高める。
論文参考訳（メタデータ） (2023-09-29T14:38:58Z)
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond [29.778018058541676]
GPT-Fathomは、OpenAI Evals上に構築された大規模言語モデル(LLM)のための、オープンソースで再現可能な評価スイートである。私たちは,7つの機能カテゴリにまたがる20以上のベンチマークで,10以上のLLMとOpenAIのレガシモデルを評価しました。
論文参考訳（メタデータ） (2023-09-28T16:43:35Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。