論文の概要: An Exploratory Literature Study on Sharing and Energy Use of Language
Models for Source Code
- arxiv url: http://arxiv.org/abs/2307.02443v1
- Date: Wed, 5 Jul 2023 17:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 12:59:16.159943
- Title: An Exploratory Literature Study on Sharing and Energy Use of Language
Models for Source Code
- Title(参考訳): ソースコードにおける言語モデルの共有とエネルギー利用に関する探索文学的研究
- Authors: Max Hort and Anastasiia Grishina and Leon Moonen
- Abstract要約: 本研究では,ソフトウェア工学タスクのための言語モデルを訓練した出版物が,ソースコードと訓練されたアーティファクトを共有しているかどうかを検討する。
494のユニークな出版物から,コード関連課題に対処するために言語モデルを用いた293の関連出版物を特定した。
ソフトウェアエンジニアリングタスクのソースコードモデルに関する現在の研究において、情報とアーティファクトの共有に欠陥があることが判明した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models trained on source code can support a variety of
software development tasks, such as code recommendation and program repair.
Large amounts of data for training such models benefit the models' performance.
However, the size of the data and models results in long training times and
high energy consumption. While publishing source code allows for replicability,
users need to repeat the expensive training process if models are not shared.
The main goal of the study is to investigate if publications that trained
language models for software engineering (SE) tasks share source code and
trained artifacts. The second goal is to analyze the transparency on training
energy usage. We perform a snowballing-based literature search to find
publications on language models for source code, and analyze their reusability
from a sustainability standpoint.
From 494 unique publications, we identified 293 relevant publications that
use language models to address code-related tasks. Among them, 27% (79 out of
293) make artifacts available for reuse. This can be in the form of tools or
IDE plugins designed for specific tasks or task-agnostic models that can be
fine-tuned for a variety of downstream tasks. Moreover, we collect insights on
the hardware used for model training, as well as training time, which together
determine the energy consumption of the development process. We find that there
are deficiencies in the sharing of information and artifacts for current
studies on source code models for software engineering tasks, with 40% of the
surveyed papers not sharing source code or trained artifacts. We recommend the
sharing of source code as well as trained artifacts, to enable sustainable
reproducibility. Moreover, comprehensive information on training times and
hardware configurations should be shared for transparency on a model's carbon
footprint.
- Abstract(参考訳): ソースコードでトレーニングされた大規模言語モデルは、コードレコメンデーションやプログラムの修正など、さまざまなソフトウェア開発タスクをサポートすることができる。
このようなモデルをトレーニングするための大量のデータにより、モデルの性能が向上する。
しかし、データとモデルのサイズは、長いトレーニング時間と高いエネルギー消費をもたらす。
ソースコードの公開は複製を可能にするが、モデルが共有されていない場合は、ユーザーは高価なトレーニングプロセスを繰り返す必要がある。
この研究の主な目標は、ソフトウェア工学(se)タスクのための言語モデルを訓練した出版物がソースコードと訓練されたアーティファクトを共有しているかどうかを調べることである。
第2の目標は,トレーニングエネルギー使用に関する透明性を分析することだ。
我々は,スノーボールを用いた文献検索を行い,ソースコードの言語モデルに関する出版物を検索し,持続可能性の観点からその再利用性を分析する。
494のユニークな出版物から,コード関連のタスクに対処するために言語モデルを使用する293の関連出版物を特定した。
そのうち27%(293のうち79)は、アーティファクトを再利用できる。
これは、特定のタスクのために設計されたツールやIDEプラグインの形で、様々な下流タスクのために微調整できるタスクに依存しないモデルである。
さらに,モデルトレーニングに使用するハードウェアに関する洞察と,開発プロセスのエネルギー消費を決定するトレーニング時間も収集する。
ソフトウェアエンジニアリングタスクのソースコードモデルに関する現在の研究では、情報やアーティファクトの共有に欠陥があることが分かり、調査対象の40%はソースコードやトレーニング済みアーティファクトを共有していない。
持続可能な再現性を実現するため、ソースコードとトレーニング済みのアーティファクトの共有を推奨します。
さらに、トレーニング時間とハードウェア構成に関する包括的な情報は、モデルのカーボンフットプリントの透明性のために共有する必要がある。
関連論文リスト
- INSPECT: Intrinsic and Systematic Probing Evaluation for Code
Transformers [7.255653248042546]
我々は、ソースコードの表面、構文、構造、意味的特性を訓練する15の探索タスクを定義するためにフレームワークを使用します。
8つの事前訓練されたソースコードモデルと、ベースラインとして自然言語モデル(BERT)を探索する。
構造情報(GraphCodeBERTなど)を組み込んだモデルの方が,ソースコードの特徴をよりよく表現できることがわかった。
論文 参考訳(メタデータ) (2023-12-08T15:21:54Z) - Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code [24.936022005837415]
本稿では,言語モデルを用いたコード処理の最近の進歩を体系的にレビューする。
私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、特にコードで事前訓練された特殊なモデルに分解します。
AST、CFG、ユニットテストなどのコード固有の機能や、トレーニングコード言語モデルのアプリケーションについて議論し、この領域における重要な課題と将来的な方向性を特定します。
論文 参考訳(メタデータ) (2023-11-14T08:34:26Z) - Empirical Study on Transformer-based Techniques for Software Engineering [12.973997150227198]
既存の文献をレビューし、異なるタスクに対するモデルアーキテクチャの適合性について検討し、異なるデータセット上でのモデルの一般化能力について考察する。
文献調査で確認した,最もターゲットにされたソフトウェアエンジニアリングタスクのトップ4 – コードの要約,バグ修正,バグ検出,コード検索 – に対して,実験を実施しています。
論文 参考訳(メタデータ) (2023-09-30T14:45:22Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - Active Code Learning: Benchmarking Sample-Efficient Training of Code
Models [35.54965391159943]
ソフトウェアエンジニアリング(ML4Code)では、人的労力の少ないコードのモデルを効率的にトレーニングすることが、緊急の問題となっている。
アクティブな学習は、開発者が望ましいパフォーマンスでモデルを生成しながら、少ないデータでモデルをトレーニングすることを可能にするようなテクニックです。
本稿は、この重要な問題であるアクティブコード学習を研究するための最初のベンチマークを構築します。
論文 参考訳(メタデータ) (2023-06-02T03:26:11Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。
リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。
モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:33:54Z) - AstBERT: Enabling Language Model for Code Understanding with Abstract
Syntax Tree [3.1087379479634927]
抽象構文木(AST)を用いてプログラミング言語(PL)をよりよく理解することを目的とした事前学習型言語モデルAstBERTモデルを提案する。
具体的には、GitHubから大量のソースコード(javaとpythonの両方)を収集し、ソースコードに関する情報を解釈して統合することができます。
実験結果から,我々のAstBERTモデルが両下流タスクの最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2022-01-20T03:27:26Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。