論文の概要: Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks
- arxiv url: http://arxiv.org/abs/2403.04814v1
- Date: Thu, 7 Mar 2024 05:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:07:16.317314
- Title: Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks
- Title(参考訳): 構文対応型コードフィルインザミドルタスクにおけるLCMの評価
- Authors: Linyuan Gong, Sida Wang, Mostafa Elhoushi, Alvin Cheung
- Abstract要約: Syntax-Aware Fill-in-the-Middle (SAFIM)は、コードFill-in-the-Middle(FIM)タスク上でLLM(Large Language Models)を評価するための新しいベンチマークである。
このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てている。
- 参考スコア(独自算出の注目度): 13.796839010758218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Syntax-Aware Fill-In-the-Middle (SAFIM), a new benchmark for
evaluating Large Language Models (LLMs) on the code Fill-in-the-Middle (FIM)
task. This benchmark focuses on syntax-aware completions of program structures
such as code blocks and conditional expressions, and includes 17,720 examples
from multiple programming languages, sourced from recent code submissions after
April 2022 to minimize data contamination. SAFIM provides a robust framework
with various prompt designs and novel syntax-aware post-processing techniques,
facilitating accurate and fair comparisons across LLMs. Our comprehensive
evaluation of 15 LLMs shows that FIM pretraining not only enhances FIM
proficiency but also improves Left-to-Right (L2R) inference using LLMs. Our
findings challenge conventional beliefs and suggest that pretraining methods
and data quality have more impact than model size. SAFIM thus serves as a
foundational platform for future research in effective pretraining strategies
for code LLMs. The evaluation toolkit and dataset are available at
https://github.com/gonglinyuan/safim, and the leaderboard is available at
https://safimbenchmark.com.
- Abstract(参考訳): 本研究では,SAFIM (Syntax-Aware Fill-in-the-Middle) を導入し,File-in-the-Middle (FIM) タスク上でLLM(Large Language Models) を評価する。
このベンチマークは、コードブロックや条件式などのプログラム構造の構文対応補完に焦点を当てており、データ汚染を最小限に抑えるため、2022年4月以降の最近のコード提出から得られた、複数のプログラミング言語の17,720の例を含んでいる。
SAFIMは、様々なプロンプト設計と新しい構文認識後処理技術を備えた堅牢なフレームワークを提供し、LLM間の正確かつ公正な比較を容易にする。
15LLMの総合評価の結果,FIMプレトレーニングはFIMの熟練度を高めるだけでなく,L2R(Left-to-Right)推論も改善することがわかった。
本研究は従来の信念に挑戦し,事前学習法とデータ品質がモデルサイズよりも影響が大きいことを示唆する。
したがって、SAFIMは将来のコードLLMの効果的な事前学習戦略研究の基盤となる。
評価ツールキットとデータセットはhttps://github.com/gonglinyuan/safimで、リーダーボードはhttps://safimbenchmark.comで入手できる。
関連論文リスト
- Which Syntactic Capabilities Are Statistically Learned by Masked
Language Models for Code? [51.29970742152668]
精度に基づく測定に依存することで、モデルの能力が過大評価される可能性があることを強調する。
これらの問題に対処するために,SyntaxEval in Syntactic Capabilitiesというテクニックを導入する。
論文 参考訳(メタデータ) (2024-01-03T02:44:02Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Benchmarking Generation and Evaluation Capabilities of Large Language
Models for Instruction Controllable Summarization [136.18825814573208]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Pre-training LLMs using human-like development data corpus [3.5757761767474876]
我々は,子どもが見るのとほぼ同じ数のトークンを用いて,文脈的単語表現を学習する能力について,LLM(Large Language Models)を事前訓練し評価する。
異なるアーキテクチャで、エポック間のパフォーマンスの変化を評価し、タスクの厳密で厳密なトラックに対する事前トレーニングメトリクスを報告します。
論文 参考訳(メタデータ) (2023-11-08T13:13:23Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Evaluating Large Language Models at Evaluating Instruction Following [57.74447923909296]
大規模言語モデル(LLM)は、人間の評価に代わるスケーラブルで費用対効果の高い代替品として登場した。
本稿では,これらの「LLM評価器」の有効性について検討する。
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。