論文の概要: Benchmarking Causal Study to Interpret Large Language Models for Source
Code
- arxiv url: http://arxiv.org/abs/2308.12415v1
- Date: Wed, 23 Aug 2023 20:32:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 16:16:01.846351
- Title: Benchmarking Causal Study to Interpret Large Language Models for Source
Code
- Title(参考訳): ソースコードの大規模言語モデル解釈のためのベンチマーク因果研究
- Authors: Daniel Rodriguez-Cardenas, David N. Palacio, Dipin Khati, Henry Burke,
Denys Poshyvanyk
- Abstract要約: 本稿では,3つのSEタスクをキュレートしたテストベッドからなるGalerasというベンチマーク戦略を紹介する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
- 参考スコア(独自算出の注目度): 6.301373791541809
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One of the most common solutions adopted by software researchers to address
code generation is by training Large Language Models (LLMs) on massive amounts
of source code. Although a number of studies have shown that LLMs have been
effectively evaluated on popular accuracy metrics (e.g., BLEU, CodeBleu),
previous research has largely overlooked the role of Causal Inference as a
fundamental component of the interpretability of LLMs' performance. Existing
benchmarks and datasets are meant to highlight the difference between the
expected and the generated outcome, but do not take into account confounding
variables (e.g., lines of code, prompt size) that equally influence the
accuracy metrics. The fact remains that, when dealing with generative software
tasks by LLMs, no benchmark is available to tell researchers how to quantify
neither the causal effect of SE-based treatments nor the correlation of
confounders to the model's performance. In an effort to bring statistical rigor
to the evaluation of LLMs, this paper introduces a benchmarking strategy named
Galeras comprised of curated testbeds for three SE tasks (i.e., code
completion, code summarization, and commit generation) to help aid the
interpretation of LLMs' performance. We illustrate the insights of our
benchmarking strategy by conducting a case study on the performance of ChatGPT
under distinct prompt engineering methods. The results of the case study
demonstrate the positive causal influence of prompt semantics on ChatGPT's
generative performance by an average treatment effect of $\approx 3\%$.
Moreover, it was found that confounders such as prompt size are highly
correlated with accuracy metrics ($\approx 0.412\%$). The end result of our
case study is to showcase causal inference evaluations, in practice, to reduce
confounding bias. By reducing the bias, we offer an interpretable solution for
the accuracy metric under analysis.
- Abstract(参考訳): コード生成にソフトウェア研究者が採用する最も一般的なソリューションの1つは、大量のソースコードでLLM(Large Language Models)をトレーニングすることである。
多くの研究はllmが一般的な精度指標(例えばbleu、codebleu)で効果的に評価されていることを示しているが、以前の研究はllmsのパフォーマンスの解釈可能性の基本要素として因果推論の役割を見落としている。
既存のベンチマークとデータセットは、期待される結果と生成された結果の違いを強調することを目的としているが、同じ精度のメトリクスに影響を及ぼす結合変数(コード行数、プロンプトサイズなど)を考慮に入れていない。
LLMによる生成的ソフトウェアタスクを扱う場合、SEベースの治療の因果的効果や、共同設立者のモデルの性能との相関を定量化する方法を研究者に示すベンチマークは存在しない。
llmsの評価に統計的厳密性を持たせるため,本稿では,3つのseタスク(コード補完,コード要約,コミット生成)のためのキュレートされたテストベッドからなるgalerasというベンチマーク戦略を紹介し,llmsのパフォーマンスの解釈を支援する。
本稿では,ChatGPTの性能に関するケーススタディを,個別の迅速なエンジニアリング手法で実施することで,ベンチマーク戦略の知見を述べる。
本研究の結果は,ChatGPTの生成性能に対するアクシデントセマンティクスの正の因果効果を,平均治療効果$\approx 3\%$で示している。
さらに、プロンプトサイズなどの共同設立者は精度の指標と高い相関があることが判明した(\approx 0.412\%$)。
ケーススタディの最終結果は、因果推論の評価を実証することであり、実際には、矛盾するバイアスを減らすことである。
バイアスを低減することにより、分析対象の精度測定値の解釈可能な解が得られる。
関連論文リスト
- Metric-aware LLM inference [56.60799590257398]
大規模言語モデル(LLM)は、様々なNLPタスクに対して強い結果を示してきた。
我々は,この推論戦略が,タスクや関連する評価指標に最適であることを示す。
提案手法は,推定時にカスタムメトリクスを最適化する決定論的手法である。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - Quantifying Contamination in Evaluating Code Generation Capabilities of
Language Models [27.24738197172374]
大規模言語モデルは、様々なコード生成ベンチマークで顕著なパフォーマンスを達成した。
これらのベンチマークが事前トレーニングや微調整のデータにリークされる可能性があるため、潜在的な汚染に関する懸念が高まっている。
我々は、人気のあるコード生成ベンチマークとオープントレーニングコーパスの間にかなりの重複があることを示し、トレーニング中に同様のソリューションが見られたベンチマークのサブセットにおいて、モデルの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-03-06T21:45:35Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Can Large Language Models Infer Causation from Correlation? [80.38419293391397]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - A global analysis of metrics used for measuring performance in natural
language processing [9.433496814327086]
自然言語処理の性能測定に使用されるメトリクスの,最初の大規模断面積解析を行う。
結果から,現在使用されている自然言語処理メトリクスの大部分は,モデルの性能を不適切に反映する特性を持っていることが示唆された。
論文 参考訳(メタデータ) (2022-04-25T11:41:50Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。