Fugu-MT 論文翻訳(概要): Language Models for Code Completion: A Practical Evaluation

論文の概要: Language Models for Code Completion: A Practical Evaluation

arxiv url: http://arxiv.org/abs/2402.16197v1
Date: Sun, 25 Feb 2024 20:43:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:51:30.193358
Title: Language Models for Code Completion: A Practical Evaluation
Title（参考訳）: コード補完のための言語モデル: 実践的評価
Authors: Maliheh Izadi, Jonathan Katzy, Tim van Dam, Marc Otten, Razvan Mihai Popescu, Arie van Deursen
Abstract要約: 本研究は,実世界のコードを完成させる際の3つの公開言語モデルの定量的および定性的な評価を提供する。 1200以上のユーザから1年以上にわたって,実際の自動補完使用データを収集しました。 66.3%の障害はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデル使用によるものであり、9.3%は開発者が過剰に記述した有効な要求であることがわかった。
参考スコア（独自算出の注目度）: 13.174471984950857
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Transformer-based language models for automatic code completion have shown great promise so far, yet the evaluation of these models rarely uses real data. This study provides both quantitative and qualitative assessments of three public code language models when completing real-world code. We first developed an open-source IDE extension, Code4Me, for the online evaluation of the models. We collected real auto-completion usage data for over a year from more than 1200 users, resulting in over 600K valid completions. These models were then evaluated using six standard metrics across twelve programming languages. Next, we conducted a qualitative study of 1690 real-world completion requests to identify the reasons behind the poor model performance. A comparative analysis of the models' performance in online and offline settings was also performed, using benchmark synthetic datasets and two masking strategies. Our findings suggest that while developers utilize code completion across various languages, the best results are achieved for mainstream languages such as Python and Java. InCoder outperformed the other models across all programming languages, highlighting the significance of training data and objectives. Our study also revealed that offline evaluations do not accurately reflect real-world scenarios. Upon qualitative analysis of the model's predictions, we found that 66.3% of failures were due to the models' limitations, 24.4% occurred due to inappropriate model usage in a development context, and 9.3% were valid requests that developers overwrote. Given these findings, we propose several strategies to overcome the current limitations. These include refining training objectives, improving resilience to typographical errors, adopting hybrid approaches, and enhancing implementations and usability.
Abstract（参考訳）: 自動コード補完のためのトランスフォーマーベースの言語モデルはこれまで大きな期待を寄せてきたが、これらのモデルの評価はほとんど実際のデータを使用しない。本研究は、実世界のコードを完成させる際の3つの公コード言語モデルの定量的および質的評価を提供する。私たちはまず,そのモデルのオンライン評価のために,オープンソースのIDE拡張であるCode4Meを開発した。実際の自動補完利用データを1200人以上から1年以上にわたって収集し、6万以上の有効期間を計上した。これらのモデルは、12のプログラミング言語にまたがる6つの標準メトリクスを用いて評価された。次に,モデル性能の低下の原因を明らかにするため,実世界の完了要求1690の質的研究を行った。また、ベンチマーク合成データセットと2つのマスキング戦略を用いて、オンラインおよびオフライン設定におけるモデルのパフォーマンスの比較分析を行った。開発者が様々な言語でコード補完を利用する一方で、PythonやJavaなどの主流言語で最高の結果が得られます。 InCoderはすべてのプログラミング言語で他のモデルよりも優れており、トレーニングデータと目的の重要性を強調している。また,オフライン評価は実世界のシナリオを正確に反映しないことを明らかにした。モデルの予測を定性的に分析した結果、66.3%の失敗はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデルの使用によるものであり、9.3%は開発者が書き直した有効な要求であることがわかった。これらの結果を踏まえ、現状の限界を克服するためのいくつかの戦略を提案する。トレーニング目標の改良、タイポグラフィーエラーに対するレジリエンス向上、ハイブリッドアプローチの採用、実装とユーザビリティの向上などだ。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
EduBench: A Comprehensive Benchmarking Dataset for Evaluating Large Language Models in Diverse Educational Scenarios [41.370448581863194]
教育シナリオに適した最初の多様なベンチマークを紹介します。本稿では,教師と学生の両方に関係のある12つの重要な側面をカバーする多次元評価指標を提案する。構築したデータセット上で比較的小規模なモデルをトレーニングし、最先端の大規模モデルに匹敵するパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2025-05-22T03:01:28Z)
An evaluation of LLM code generation capabilities through graded exercises [0.7070726553564699]
我々は,8つのプログラミング言語における符号化問題の解法において,1つの最先端モデル(GPT4-o-mini)の性能を新たに評価する。分析の結果,モデルの成功確率はタスクの難易度と正の相関があることがわかった。モデル性能の46.6%はタスクの困難に起因する可能性があるが、37.4%はモデルのトレーニングセットへのチャレンジソリューションの漏洩に関連していると思われる。
論文参考訳（メタデータ） (2024-10-06T09:54:54Z)
Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文参考訳（メタデータ） (2024-05-23T16:50:49Z)
Exploring the Impact of the Output Format on the Evaluation of Large Language Models for Code Translation [8.81447711370817]
我々は、11の人気のある命令付き大規模言語モデル(LLM)の出力を経験的に分析する。この結果から,プロンプトエンジニアリングと正規表現の戦略的組み合わせにより,モデル生成出力からソースコードを効果的に抽出できることが示唆された。
論文参考訳（メタデータ） (2024-03-25T21:41:31Z)
Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文参考訳（メタデータ） (2023-11-14T18:59:15Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
L2CEval: Evaluating Language-to-Code Generation Capabilities of Large Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文参考訳（メタデータ） (2023-09-29T17:57:00Z)
How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources [117.6496550359768]
この研究は、オープンな命令追従データセットにおける命令チューニング言語モデルの最近の進歩を探求する。我々は、12の命令データセットに基づいて訓練された6.7Bから65Bのパラメータを含む、命令調整されたモデルの大規模なセットを提供する。それらの事実的知識、推論、多言語性、コーディング、そしてその後に続くオープン・エンド・インストラクションに基づいて評価する。
論文参考訳（メタデータ） (2023-06-07T19:59:23Z)
Towards Better Instruction Following Language Models for Chinese: Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。 GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文参考訳（メタデータ） (2023-04-16T18:37:39Z)
On the Reliability and Explainability of Language Models for Program Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文参考訳（メタデータ） (2023-02-19T14:59:52Z)
Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文参考訳（メタデータ） (2022-11-16T18:51:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。