論文の概要: LLM is Like a Box of Chocolates: the Non-determinism of ChatGPT in Code
Generation
- arxiv url: http://arxiv.org/abs/2308.02828v1
- Date: Sat, 5 Aug 2023 09:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 15:22:51.182776
- Title: LLM is Like a Box of Chocolates: the Non-determinism of ChatGPT in Code
Generation
- Title(参考訳): LLMはココレートの箱のようなもの:コード生成におけるChatGPTの非決定性
- Authors: Shuyin Ouyang, Jie M. Zhang, Mark Harman, Meng Wang
- Abstract要約: 本稿では,非決定論が実際に高いことを実証するための実証的研究を行う。
我々は,3つのコード生成ベンチマークから829個のコード生成問題を解析した結果を報告する。
- 参考スコア(独自算出の注目度): 27.6100778980618
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: There has been a recent explosion of research on Large Language Models (LLMs)
for software engineering tasks, in particular code generation. However, results
from LLMs can be highly unstable; nondeterministically returning very different
codes for the same prompt. Non-determinism is a potential menace to scientific
conclusion validity. When non-determinism is high, scientific conclusions
simply cannot be relied upon unless researchers change their behaviour to
control for it in their empirical analyses. This paper conducts an empirical
study to demonstrate that non-determinism is, indeed, high, thereby underlining
the need for this behavioural change. We choose to study ChatGPT because it is
already highly prevalent in the code generation research literature. We report
results from a study of 829 code generation problems from three code generation
benchmarks (i.e., CodeContests, APPS, and HumanEval). Our results reveal high
degrees of non-determinism: the ratio of coding tasks with zero equal test
output across different requests is 72.73%, 60.40%, and 65.85% for
CodeContests, APPS, and HumanEval, respectively. In addition, we find that
setting the temperature to 0 does not guarantee determinism in code generation,
although it indeed brings less non-determinism than the default configuration
(temperature=1). These results confirm that there is, currently, a significant
threat to scientific conclusion validity. In order to put LLM-based research on
firmer scientific foundations, researchers need to take into account
non-determinism in drawing their conclusions.
- Abstract(参考訳): 最近、ソフトウェアエンジニアリングタスク、特にコード生成のためのLarge Language Models(LLM)の研究が爆発的に増えている。
しかし、LSMの結果は非常に不安定であり、決定論的には同じプロンプトに対して全く異なるコードを返す。
非決定論は科学的結論の正当性への脅威である。
非決定論が高ければ、科学的な結論は、研究者が経験的な分析でその行動をコントロールするために行動を変えない限り、単純に信頼できない。
本稿では,非決定論が実際に高いことを証明する実証的研究を行い,この行動変化の必要性を概説する。
ChatGPTはコード生成研究の文献ですでに広く使われているため、我々はChatGPTの研究を選択します。
我々は,3つのコード生成ベンチマーク(CodeContests,APPS,HumanEval)から829のコード生成問題を解析した結果を報告する。
異なる要求に対するテスト出力がゼロであるコーディングタスクの比率は,CodeContests,APPS,HumanEvalそれぞれ72.73%,60.40%,65.85%であった。
さらに、温度を0に設定しても、コード生成における決定性は保証されないが、非決定性はデフォルトの設定よりも低い(温度=1)。
これらの結果は、現在、科学的結論の妥当性に重大な脅威があることを確認した。
LLMに基づくより堅固な科学基盤の研究を行うためには、研究者は結論の導出において非決定性を考慮する必要がある。
関連論文リスト
- A Controlled Experiment on the Energy Efficiency of the Source Code Generated by Code Llama [4.937787069991124]
ソフトウェア開発者の83%がコード生成にLLM(Large Language Models)を使用している。
本稿では,人手によるソースコードに関して,コードラマのエネルギー効率を評価する。
論文 参考訳(メタデータ) (2024-05-06T16:32:29Z) - Bugs in Large Language Models Generated Code: An Empirical Study [12.625305075672456]
コード用の大規模言語モデル(LLM)が最近注目を集めている。
人間書きのコードと同様、LLM生成コードはバグを起こしやすい。
本稿では,3つのLLMを用いて生成されたコードから収集した333個のバグのサンプルについて検討する。
論文 参考訳(メタデータ) (2024-03-13T20:12:01Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [69.99031792995348]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - SciGLM: Training Scientific Language Models with Self-Reflective
Instruction Annotation and Tuning [60.14510984576027]
SciGLMは、大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。
本研究では, 自己回帰的指示アノテーションの枠組みを適用し, 難解な科学的問題に対する段階的推論を生成する。
言語モデルのChatGLMをSciInstructで微調整し、科学的および数学的推論能力を向上した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - CLadder: Assessing Causal Reasoning in Language Models [82.8719238178569]
我々は,大言語モデル (LLM) が因果関係をコヒーレントに説明できるかどうかを検討する。
ユデア・パールらによって仮定された「因果推論エンジン」にインスパイアされた、自然言語における因果推論という新たなNLPタスクを提案する。
論文 参考訳(メタデータ) (2023-12-07T15:12:12Z) - MoCa: Measuring Human-Language Model Alignment on Causal and Moral
Judgment Tasks [49.60689355674541]
認知科学の豊富な文献は人々の因果関係と道徳的直観を研究してきた。
この研究は、人々の判断に体系的に影響を及ぼす多くの要因を明らかにした。
大規模言語モデル(LLM)が、人間の参加者と一致するテキストベースのシナリオについて因果的、道徳的な判断を下すかどうかを検証する。
論文 参考訳(メタデータ) (2023-10-30T15:57:32Z) - Bias Testing and Mitigation in LLM-based Code Generation [25.2052136310021]
本稿では,コード生成タスクに特化して設計された新しいバイアステストフレームワークを提案する。
調査対象のモデルが生成するコード関数の20.29%から44.93%が偏りに敏感なタスクを扱う際に偏りがあることがわかった。
コード生成モデルのバイアスを軽減するため、我々は5つのバイアス軽減プロンプト戦略を評価する。
論文 参考訳(メタデータ) (2023-09-03T07:14:49Z) - Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability
of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。
生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-08-20T18:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。