論文の概要: User-Centric Evaluation of ChatGPT Capability of Generating R Program
Code
- arxiv url: http://arxiv.org/abs/2402.03130v1
- Date: Mon, 5 Feb 2024 15:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 15:34:18.881032
- Title: User-Centric Evaluation of ChatGPT Capability of Generating R Program
Code
- Title(参考訳): Rプログラムコード生成におけるChatGPT能力のユーザ中心評価
- Authors: Tanha Miah and Hong Zhu
- Abstract要約: 本稿では,自然言語入力からR言語コードを生成するChatGPTの性能評価を行う。
実験データによると、人間の開発者は、ChatGPTを使ってコードを生成するスキルを改善するために、自然に経験から学べない。
- 参考スコア(独自算出の注目度): 3.3214711658348235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper reports an evaluation of ChatGPT's capability of generating R
programming language code from natural language input. A dataset specially
designed for generating R program code was constructed with metadata to support
scenario-based testing and evaluation of code generation capabilities in
various usage scenarios of different levels of difficulty and different types
of programs. The evaluation takes a multiple attempt process in which the
tester tries to complete the code generation task through a number of attempts
until a satisfactory solution is obtained or gives up after a fixed number of
maximal attempts. In each attempt the tester formulates a natural language
input to ChatGPT based on the previous results and the task to be completed. In
addition to the metrics of average numbers of attempts and average amount of
time taken to complete the tasks, the final generated solutions are then
assessed on a number of quality attributes, including accuracy, completeness,
conciseness, readability, well structuredness, logic clarity, depth of
ex-planation, and coverage of parameters. Our experiments demonstrated that
ChatGPT is in general highly capable of generating high quality R program code
as well as textual explanations although it may fail on hard programming tasks.
The experiment data also shows that human developers can hardly learn from
experiences naturally to improve the skill of using ChatGPT to generate code.
- Abstract(参考訳): 本稿では,自然言語入力からR言語コードを生成するChatGPTの性能評価を行う。
Rプログラムコードを生成するために特別に設計されたデータセットは、異なるレベルの難易度と異なるタイプのプログラムにおいて、シナリオベースのテストとコード生成機能の評価をサポートするメタデータで構築された。
この評価では、テスタがコード生成タスクを完了させようとする複数の試行プロセスが、十分なソリューションが得られたり、一定回数の最大試行の後に諦めるまで行われます。
各試行において、テスタは、前の結果と完了すべきタスクに基づいて、ChatGPTへの自然言語入力を定式化する。
平均試行回数とタスク完了に要する時間の平均の測定値に加えて、最終的な生成したソリューションは、正確性、完全性、簡潔性、可読性、構造性、ロジックの明確さ、元計画の深さ、パラメータのカバレッジなど、多数の品質特性に基づいて評価される。
実験の結果,ChatGPTは高い品質のRプログラムコードを生成するだけでなく,テキストによる説明もできるが,ハードプログラミングタスクでは失敗する可能性があることがわかった。
実験データはまた、人間の開発者は、ChatGPTを使ってコードを生成するスキルを改善するために、自然に経験から学べないことを示している。
関連論文リスト
- Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。
我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。
Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-31T23:06:12Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。
評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。
そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文 参考訳(メタデータ) (2024-06-22T15:52:04Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Testing LLMs on Code Generation with Varying Levels of Prompt
Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。
自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文 参考訳(メタデータ) (2023-11-10T23:41:41Z) - MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language
Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。
LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。
LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文 参考訳(メタデータ) (2023-09-19T15:25:42Z) - Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。
我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文 参考訳(メタデータ) (2023-07-10T11:30:46Z) - LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。
具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。
LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-16T18:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。