Fugu-MT 論文翻訳(概要): LLM is Like a Box of Chocolates: the Non-determinism of ChatGPT in Code Generation

論文の概要: LLM is Like a Box of Chocolates: the Non-determinism of ChatGPT in Code Generation

arxiv url: http://arxiv.org/abs/2308.02828v1
Date: Sat, 5 Aug 2023 09:30:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 15:22:51.182776
Title: LLM is Like a Box of Chocolates: the Non-determinism of ChatGPT in Code Generation
Title（参考訳）: LLMはココレートの箱のようなもの:コード生成におけるChatGPTの非決定性
Authors: Shuyin Ouyang, Jie M. Zhang, Mark Harman, Meng Wang
Abstract要約: 本稿では,非決定論が実際に高いことを実証するための実証的研究を行う。我々は,3つのコード生成ベンチマークから829個のコード生成問題を解析した結果を報告する。
参考スコア（独自算出の注目度）: 27.6100778980618
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: There has been a recent explosion of research on Large Language Models (LLMs) for software engineering tasks, in particular code generation. However, results from LLMs can be highly unstable; nondeterministically returning very different codes for the same prompt. Non-determinism is a potential menace to scientific conclusion validity. When non-determinism is high, scientific conclusions simply cannot be relied upon unless researchers change their behaviour to control for it in their empirical analyses. This paper conducts an empirical study to demonstrate that non-determinism is, indeed, high, thereby underlining the need for this behavioural change. We choose to study ChatGPT because it is already highly prevalent in the code generation research literature. We report results from a study of 829 code generation problems from three code generation benchmarks (i.e., CodeContests, APPS, and HumanEval). Our results reveal high degrees of non-determinism: the ratio of coding tasks with zero equal test output across different requests is 72.73%, 60.40%, and 65.85% for CodeContests, APPS, and HumanEval, respectively. In addition, we find that setting the temperature to 0 does not guarantee determinism in code generation, although it indeed brings less non-determinism than the default configuration (temperature=1). These results confirm that there is, currently, a significant threat to scientific conclusion validity. In order to put LLM-based research on firmer scientific foundations, researchers need to take into account non-determinism in drawing their conclusions.
Abstract（参考訳）: 最近、ソフトウェアエンジニアリングタスク、特にコード生成のためのLarge Language Models(LLM)の研究が爆発的に増えている。しかし、LSMの結果は非常に不安定であり、決定論的には同じプロンプトに対して全く異なるコードを返す。非決定論は科学的結論の正当性への脅威である。非決定論が高ければ、科学的な結論は、研究者が経験的な分析でその行動をコントロールするために行動を変えない限り、単純に信頼できない。本稿では,非決定論が実際に高いことを証明する実証的研究を行い,この行動変化の必要性を概説する。 ChatGPTはコード生成研究の文献ですでに広く使われているため、我々はChatGPTの研究を選択します。我々は,3つのコード生成ベンチマーク(CodeContests,APPS,HumanEval)から829のコード生成問題を解析した結果を報告する。異なる要求に対するテスト出力がゼロであるコーディングタスクの比率は,CodeContests,APPS,HumanEvalそれぞれ72.73%,60.40%,65.85%であった。さらに、温度を0に設定しても、コード生成における決定性は保証されないが、非決定性はデフォルトの設定よりも低い(温度=1)。これらの結果は、現在、科学的結論の妥当性に重大な脅威があることを確認した。 LLMに基づくより堅固な科学基盤の研究を行うためには、研究者は結論の導出において非決定性を考慮する必要がある。

関連論文リスト

From Bias To Improved Prompts: A Case Study of Bias Mitigation of Clone Detection Models [5.874997638802244]
クローンコード検出のための生成型大規模言語モデルの適合性を評価する。 LLMの既知の問題は、これらのモデルの性能が与えられた入力プロンプトに基づいて変動する、バイアスを誘発する可能性である。我々の分析では、8つの異なるプロンプトバイアスのカテゴリを同定し、これらのバイアスを活用する方法により、F1スコアにおいて最大10.81%の大幅な改善が得られた。
論文参考訳（メタデータ） (2025-05-08T22:38:10Z)
Unveiling the Magic of Code Reasoning through Hypothesis Decomposition and Amendment [54.62926010621013]
我々は,大規模言語モデルの推論能力に対する新たな視点を提供するために,新しいタスクであるコード推論を導入する。論理的推論の確立した形式に基づいて3つのメタベンチマークを要約し、8つの特定のベンチマークタスクにインスタンス化する。本稿では,人間の複雑な問題解決手法に触発された新たな経路探索パイプラインを提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:58Z)
MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses [72.39144388083712]
大規模言語モデル(LLM)が化学において新規で有効な仮説を自律的に生成できるかどうかは不明である。我々は、2024年1月以降に発行され、オンライン化された51のハイインパクト化学論文のベンチマークを開発し、それぞれが背景、インスピレーション、仮説を手動で注釈付けした。 LLMは、人間によってまだ認識されていない、潜伏した科学的知識の関連をすでにコード化していると仮定する。
論文参考訳（メタデータ） (2024-10-09T17:19:58Z)
Causal Representation Learning in Temporal Data via Single-Parent Decoding [66.34294989334728]
科学的研究はしばしば、システム内の高レベル変数の根底にある因果構造を理解しようとする。科学者は通常、地理的に分布した温度測定などの低レベルの測定を収集する。そこで本研究では,単一親の復号化による因果発見法を提案し,その上で下位の潜伏者と因果グラフを同時に学習する。
論文参考訳（メタデータ） (2024-10-09T15:57:50Z)
Planning In Natural Language Improves LLM Search For Code Generation [5.370466208990696]
自然言語における問題解決のための新しい探索アルゴリズムであるPlanSearchを提案する。 PlanSearchはHumanEval+、MBPP+、LiveCodeBenchで強力な結果を示している。すべてのモデル、検索アルゴリズム、および分析されたベンチマークにおいて、検索によるパフォーマンス向上を正確に予測できることが示される。
論文参考訳（メタデータ） (2024-09-05T17:44:49Z)
Hypothesizing Missing Causal Variables with LLMs [55.28678224020973]
我々は、入力が欠落変数を持つ部分因果グラフであるような新しいタスクを定式化し、出力は部分グラフを完成させるための欠落変数に関する仮説である。原因と効果の間の媒介変数を仮説化するLLMの強い能力を示す。また,オープンソースモデルの一部がGPT-4モデルより優れているという驚くべき結果も得られた。
論文参考訳（メタデータ） (2024-09-04T10:37:44Z)
SciCode: A Research Coding Benchmark Curated by Scientists [37.900374175754465]
言語モデル(LM)は、多くの挑戦的なタスクにおいて平均的な人間よりも優れており、挑戦的で高品質で現実的な評価を開発することはますます困難になっている。このベンチマークには数学、物理学、化学、生物学、材料科学といった問題が含まれています。クロード3.5-ソネット(Claude3.5-Sonnet)は、最も現実的な環境では、問題の4.6%しか解決できない。
論文参考訳（メタデータ） (2024-07-18T05:15:24Z)
A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama [4.937787069991124]
ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。本稿では,人手によるソースコードに関して,コードラマのエネルギー効率を評価する。
論文参考訳（メタデータ） (2024-05-06T16:32:29Z)
Bugs in Large Language Models Generated Code: An Empirical Study [12.625305075672456]
コード用の大規模言語モデル(LLM)が最近注目を集めている。人間書きのコードと同様、LLM生成コードはバグを起こしやすい。本稿では,3つのLLMを用いて生成されたコードから収集した333個のバグのサンプルについて検討する。
論文参考訳（メタデータ） (2024-03-13T20:12:01Z)
Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文参考訳（メタデータ） (2024-02-06T20:38:46Z)
CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文参考訳（メタデータ） (2023-12-07T15:12:12Z)
Bias Testing and Mitigation in LLM-based Code Generation [23.787124657688267]
本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。調査対象のモデルが生成するコード関数の20.29%から44.93%が偏りに敏感なタスクを扱う際に偏りがあることがわかった。コード生成モデルのバイアスを軽減するため、我々は5つのバイアス軽減プロンプト戦略を評価する。
論文参考訳（メタデータ） (2023-09-03T07:14:49Z)
Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-06-04T22:01:05Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。