Fugu-MT 論文翻訳(概要): Evaluation of ChatGPT Usability as A Code Generation Tool

論文の概要: Evaluation of ChatGPT Usability as A Code Generation Tool

arxiv url: http://arxiv.org/abs/2402.03130v2
Date: Tue, 9 Apr 2024 12:37:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-10 19:37:28.964799
Title: Evaluation of ChatGPT Usability as A Code Generation Tool
Title（参考訳）: コード生成ツールとしてのChatGPTユーザビリティの評価
Authors: Tanha Miah, Hong Zhu,
Abstract要約: 本稿では,この手法をR言語用コード生成ツールとしてのChatGPTユーザビリティ評価に適用する。ユーザエクスペリエンスは、全体の平均試行回数 1.61 であり、平均完了時間は 47.02 秒である。実験の結果、ユーザビリティの最も弱い側面は簡潔さであり、スコアは5.80点中3.80点であることがわかった。
参考スコア（独自算出の注目度）: 2.8115477071897788
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid advance of machine learning (ML) technology, large language models (LLMs) are increasingly explored as an intelligent tool to generate program code from natural language specifications. However, existing evaluations of LLMs have focused on their capabilities in comparison with humans. It is desirable to evaluate their usability when deciding on whether to use a LLM in software production. This paper proposes a user centric method. It includes metadata in the test cases of a benchmark to describe their usages, conducts testing in a multi-attempt process that mimic the uses of LLMs, measures LLM generated solutions on a set of quality attributes that reflect usability, and evaluates the performance based on user experiences in the uses of LLMs as a tool. The paper reports an application of the method in the evaluation of ChatGPT usability as a code generation tool for the R programming language. Our experiments demonstrated that ChatGPT is highly useful for generating R program code although it may fail on hard programming tasks. The user experiences are good with overall average number of attempts being 1.61 and the average time of completion being 47.02 seconds. Our experiments also found that the weakest aspect of usability is conciseness, which has a score of 3.80 out of 5. Our experiment also shows that it is hard for human developers to learn from experiences to improve the skill of using ChatGPT to generate code.
Abstract（参考訳）: 機械学習(ML)技術の急速な進歩により、大規模言語モデル(LLM)は、自然言語仕様からプログラムコードを生成するインテリジェントなツールとして、ますます研究されている。しかし、LLMの既存の評価は、人間と比較して能力に重点を置いている。 LLMをソフトウェア生産に使用するかどうかを決める際に、それらのユーザビリティを評価することが望ましい。本稿では,ユーザ中心の手法を提案する。 LLMの使用を模倣する多段階的なプロセスのテスト、ユーザビリティを反映した品質特性のセットに基づくLCM生成ソリューションの測定、LLMをツールとして使用する際のユーザエクスペリエンスに基づいたパフォーマンス評価などである。本稿では,この手法をR言語用コード生成ツールとしてのChatGPTユーザビリティ評価に適用する。実験の結果,ChatGPTはハードプログラミングタスクではフェールするが,Rプログラムコードを生成するのに非常に有用であることがわかった。ユーザエクスペリエンスは、全体の平均試行回数 1.61 であり、平均完了時間は 47.02 秒である。実験の結果、ユーザビリティの最も弱い側面は簡潔さであり、スコアは5.80点中3.80点であることがわかった。また,コード生成にChatGPTを使用するスキルを向上させるために,経験から学ぶことは困難であることを示す。

関連論文リスト

On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
ACEBench: Who Wins the Match Point in Tool Usage? [68.54159348899891]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。データを評価方法論に基づく3つの主要なタイプに分類する。これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文参考訳（メタデータ） (2025-01-22T12:59:08Z)
Learning to Ask: When LLMs Meet Unclear Instruction [49.256630152684764]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。 STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文参考訳（メタデータ） (2024-03-07T18:50:51Z)
Testing LLMs on Code Generation with Varying Levels of Prompt Specificity [0.0]
大規模言語モデル (LLM) は、人間のようなテキスト生成と処理を模倣する非並列的な技術を示している。自然言語のプロンプトを実行可能なコードに変換する可能性は、ソフトウェア開発プラクティスの大きな変化を約束します。
論文参考訳（メタデータ） (2023-11-10T23:41:41Z)
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。 LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。 LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文参考訳（メタデータ） (2023-09-19T15:25:42Z)
Calculating Originality of LLM Assisted Source Code [0.0]
本稿では,学生がソースコードを書く際の本来の取り組み(およびLLMの貢献)を決定するニューラルネットワークベースのツールを提案する。我々のツールは、コルモゴロフ複雑性のような最小記述長測度によって動機付けられている。
論文参考訳（メタデータ） (2023-07-10T11:30:46Z)
LEVER: Learning to Verify Language-to-Code Generation with Execution [64.36459105535]
本稿では,プログラムの実行結果の検証を学習することで,言語からコードへの生成を改善するシンプルな手法であるLEVERを提案する。具体的には、LLMからサンプリングされたプログラムが、自然言語入力、プログラム自体とその実行結果に基づいて正しいか否かを判定するために、検証者を訓練する。 LEVER はベースコード LLMs (4.6% から 10.9% まで) を継続的に改善し、それらすべてに対して新しい最先端の結果を得る。
論文参考訳（メタデータ） (2023-02-16T18:23:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。