論文の概要: Studying LLM Performance on Closed- and Open-source Data
- arxiv url: http://arxiv.org/abs/2402.15100v1
- Date: Fri, 23 Feb 2024 05:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 15:40:57.438338
- Title: Studying LLM Performance on Closed- and Open-source Data
- Title(参考訳): オープンソースおよびクローズドデータにおけるllm性能の研究
- Authors: Toufique Ahmed, Christian Bird, Premkumar Devanbu, Saikat Chakraborty
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学の実践において広く利用されている。
LLMは主に、寛容なライセンスで配布されるオープンソース(OSS)コードに基づいて訓練されている。
C#のパフォーマンスはOSSとほとんど変わりませんが、C++では大幅に低下します。
- 参考スコア(独自算出の注目度): 15.414825989739423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language models (LLMs) are finding wide use in software engineering
practice. These models are extremely data-hungry, and are largely trained on
open-source (OSS) code distributed with permissive licenses. In terms of actual
use however, a great deal of software development still occurs in the
for-profit/proprietary sphere, where the code under development is not, and
never has been, in the public domain; thus, many developers, do their work, and
use LLMs, in settings where the models may not be as familiar with the code
under development. In such settings, do LLMs work as well as they do for OSS
code? If not, what are the differences? When performance differs, what are the
possible causes, and are there work-arounds? In this paper, we examine this
issue using proprietary, closed-source software data from Microsoft, where most
proprietary code is in C# and C++. We find that performance for C# changes
little from OSS --> proprietary code, but does significantly reduce for C++; we
find that this difference is attributable to differences in identifiers. We
also find that some performance degradation, in some cases, can be ameliorated
efficiently by in-context learning.
- Abstract(参考訳): 大規模言語モデル(llm)は、ソフトウェア工学の実践で広く使われている。
これらのモデルは極めてデータ不足であり、主に寛容なライセンスで配布されるオープンソース(OSS)コードに基づいて訓練されている。
しかし、実際の使用という点では、開発中のコードがパブリックドメインでは存在せず、決して存在していない営利的/プロプライエタリな領域において、モデルが開発中のコードに馴染みのないような設定で、多くの開発者が自分たちの仕事をし、LLMを使用する。
このような設定では、LSMはOSSコードと同様に機能しますか?
そうでなければ、違いは何でしょう?
パフォーマンスが違う場合、原因は何か、回避策はあるのか?
本稿では、ほとんどのプロプライエタリコードがc#とc++にあるmicrosoftのプロプライエタリでクローズドソースなソフトウェアデータを用いてこの問題を調べる。
C#のパフォーマンスはOSS -->プロプライエタリなコードとほとんど変わらないが、C++では大幅に低下している。
また、いくつかの性能劣化は、場合によっては、文脈内学習によって効率的に改善することができる。
関連論文リスト
- Performance-Aligned LLMs for Generating Fast Code [2.180216161965907]
コードLLMの出力と性能を一致させる強化学習に基づく手法を提案する。
我々は,一連のベンチマークタスクのベースモデル上でのコード生成の高速化を,微調整モデルにより改善できることを実証した。
論文 参考訳(メタデータ) (2024-04-29T16:52:38Z) - Can LLMs Separate Instructions From Data? And What Do We Even Mean By
That? [70.90792645587449]
命令調整型大規模言語モデル(LLM)はブレークスルーを達成し、多くの実用的なアプリケーションに数え切れないほど新しい可能性を秘めている。
LLMには、命令とデータの分離など、コンピュータ科学の他の領域で確立されている基本的な安全機能がない。
本稿では,命令データ分離の現象を定量化するための公式測度と,その経験的変量を導入する。
論文 参考訳(メタデータ) (2024-03-11T15:48:56Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - DebugBench: Evaluating Debugging Capability of Large Language Models [89.13051256657995]
DebugBench - LLM(Large Language Models)のベンチマーク。
C++、Java、Pythonの4つの主要なバグカテゴリと18のマイナータイプをカバーする。
ゼロショットシナリオで2つの商用モデルと3つのオープンソースモデルを評価する。
論文 参考訳(メタデータ) (2024-01-09T15:46:38Z) - The Devil is in the Tails: How Long-Tailed Code Distributions Impact
Large Language Models [15.462819541662752]
コードのための人気のあるLarge Language Modelsを含む学習ベースのモデルは、データに大きく依存している。
長い尾の分布は、コードに対するLLMの有効性に大きな影響を与えます。
本研究は,LLMのコードに対する長期分布の影響をよりよく理解するものである。
論文 参考訳(メタデータ) (2023-09-07T08:53:16Z) - Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability
of Large Language Model Code Generation [8.575560293086289]
大規模言語モデル(LLM)は、自然言語を理解し、プログラミングコードを生成する素晴らしい能力を示している。
生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-08-20T18:36:28Z) - Exploring Continual Learning for Code Generation Models [80.78036093054855]
継続的学習(CL)は、コードドメインの中でまだ過小評価されていない重要な側面である。
コード生成,翻訳,要約,改良など,幅広いタスクをカバーするCodeTask-CLというベンチマークを導入する。
即時選択機構の不安定な訓練により,プロンプトプール (PP) などの有効手法が破滅的な忘れ込みに悩まされることが判明した。
論文 参考訳(メタデータ) (2023-07-05T16:58:39Z) - WizardCoder: Empowering Code Large Language Models with Evol-Instruct [67.24653703564492]
WezardCoderは、複雑な命令の微調整でコードLLMをパワーアップする。
私たちのモデルは、他のすべてのオープンソースコードLLMをかなり上回ります。
論文 参考訳(メタデータ) (2023-06-14T15:18:48Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - SantaCoder: don't reach for the stars! [27.050410834027705]
BigCodeプロジェクトは、コードのための大規模言語モデルの責任ある開発に取り組んでいる、オープン・サイエンティフィックなコラボレーションである。
The StackのJava,JavaScript,Pythonサブセットで1.1Bパラメータモデルをトレーニングし,MultiPL-Eのテキスト・トゥ・コードベンチマークで評価する。
私たちの最良のモデルは、MultiPL-EのJava、JavaScript、Pythonの各部分の左から右への生成とインフィルで、以前のオープンソース多言語コード生成モデルより優れています。
論文 参考訳(メタデータ) (2023-01-09T10:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。