論文の概要: An Exploratory Literature Study on Sharing and Energy Use of Language
Models for Source Code
- arxiv url: http://arxiv.org/abs/2307.02443v1
- Date: Wed, 5 Jul 2023 17:13:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 12:59:16.159943
- Title: An Exploratory Literature Study on Sharing and Energy Use of Language
Models for Source Code
- Title(参考訳): ソースコードにおける言語モデルの共有とエネルギー利用に関する探索文学的研究
- Authors: Max Hort and Anastasiia Grishina and Leon Moonen
- Abstract要約: 本研究では,ソフトウェア工学タスクのための言語モデルを訓練した出版物が,ソースコードと訓練されたアーティファクトを共有しているかどうかを検討する。
494のユニークな出版物から,コード関連課題に対処するために言語モデルを用いた293の関連出版物を特定した。
ソフトウェアエンジニアリングタスクのソースコードモデルに関する現在の研究において、情報とアーティファクトの共有に欠陥があることが判明した。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models trained on source code can support a variety of
software development tasks, such as code recommendation and program repair.
Large amounts of data for training such models benefit the models' performance.
However, the size of the data and models results in long training times and
high energy consumption. While publishing source code allows for replicability,
users need to repeat the expensive training process if models are not shared.
The main goal of the study is to investigate if publications that trained
language models for software engineering (SE) tasks share source code and
trained artifacts. The second goal is to analyze the transparency on training
energy usage. We perform a snowballing-based literature search to find
publications on language models for source code, and analyze their reusability
from a sustainability standpoint.
From 494 unique publications, we identified 293 relevant publications that
use language models to address code-related tasks. Among them, 27% (79 out of
293) make artifacts available for reuse. This can be in the form of tools or
IDE plugins designed for specific tasks or task-agnostic models that can be
fine-tuned for a variety of downstream tasks. Moreover, we collect insights on
the hardware used for model training, as well as training time, which together
determine the energy consumption of the development process. We find that there
are deficiencies in the sharing of information and artifacts for current
studies on source code models for software engineering tasks, with 40% of the
surveyed papers not sharing source code or trained artifacts. We recommend the
sharing of source code as well as trained artifacts, to enable sustainable
reproducibility. Moreover, comprehensive information on training times and
hardware configurations should be shared for transparency on a model's carbon
footprint.
- Abstract(参考訳): ソースコードでトレーニングされた大規模言語モデルは、コードレコメンデーションやプログラムの修正など、さまざまなソフトウェア開発タスクをサポートすることができる。
このようなモデルをトレーニングするための大量のデータにより、モデルの性能が向上する。
しかし、データとモデルのサイズは、長いトレーニング時間と高いエネルギー消費をもたらす。
ソースコードの公開は複製を可能にするが、モデルが共有されていない場合は、ユーザーは高価なトレーニングプロセスを繰り返す必要がある。
この研究の主な目標は、ソフトウェア工学(se)タスクのための言語モデルを訓練した出版物がソースコードと訓練されたアーティファクトを共有しているかどうかを調べることである。
第2の目標は,トレーニングエネルギー使用に関する透明性を分析することだ。
我々は,スノーボールを用いた文献検索を行い,ソースコードの言語モデルに関する出版物を検索し,持続可能性の観点からその再利用性を分析する。
494のユニークな出版物から,コード関連のタスクに対処するために言語モデルを使用する293の関連出版物を特定した。
そのうち27%(293のうち79)は、アーティファクトを再利用できる。
これは、特定のタスクのために設計されたツールやIDEプラグインの形で、様々な下流タスクのために微調整できるタスクに依存しないモデルである。
さらに,モデルトレーニングに使用するハードウェアに関する洞察と,開発プロセスのエネルギー消費を決定するトレーニング時間も収集する。
ソフトウェアエンジニアリングタスクのソースコードモデルに関する現在の研究では、情報やアーティファクトの共有に欠陥があることが分かり、調査対象の40%はソースコードやトレーニング済みアーティファクトを共有していない。
持続可能な再現性を実現するため、ソースコードとトレーニング済みのアーティファクトの共有を推奨します。
さらに、トレーニング時間とハードウェア構成に関する包括的な情報は、モデルのカーボンフットプリントの透明性のために共有する必要がある。
関連論文リスト
- In-Context Code-Text Learning for Bimodal Software Engineering [26.0027882745058]
バイモーダルなソフトウェア分析は、大きな言語モデルの出現とともに、当初は手の届くところにあるように見えた。
コードテキストのバイモーダル性に対するコンテキスト内学習は有望な道であると仮定する。
我々は、23のソフトウェアエンジニアリングタスクを含む多様なデータセットを考察し、コンテキスト内学習フォーマットで変換する。
論文 参考訳(メタデータ) (2024-10-08T19:42:00Z) - DeepCodeProbe: Towards Understanding What Models Trained on Code Learn [13.135962181354465]
本稿では,MLモデルの構文と表現学習能力を調べるための探索手法であるDeepCodeProbeを紹介する。
コードクローン検出,コード要約,コメント生成の最先端モデルにDeepCodeProbeを適用した。
発見によると、小さなモデルは抽象構文表現をキャプチャするが、プログラミング言語の構文を完全に把握する能力は限られている。
論文 参考訳(メタデータ) (2024-07-11T23:16:44Z) - EduNLP: Towards a Unified and Modularized Library for Educational Resources [78.8523961816045]
我々はEduNLPという,統一された,モジュール化された,広範なライブラリを紹介し,教育資源の理解に焦点をあてる。
このライブラリでは、ワークフロー全体を4つのキーモジュールに分離し、データ構成、処理、モデル実装、モデル評価など、一貫したインターフェースを提供します。
現在のバージョンでは、主に4つのカテゴリから10の典型的なモデルを提供し、教育領域における5つのダウンストリーム評価タスクを、ユーザの使用に対して8つの被験者に提供します。
論文 参考訳(メタデータ) (2024-06-03T12:45:40Z) - INSPECT: Intrinsic and Systematic Probing Evaluation for Code
Transformers [7.255653248042546]
我々は、ソースコードの表面、構文、構造、意味的特性を訓練する15の探索タスクを定義するためにフレームワークを使用します。
8つの事前訓練されたソースコードモデルと、ベースラインとして自然言語モデル(BERT)を探索する。
構造情報(GraphCodeBERTなど)を組み込んだモデルの方が,ソースコードの特徴をよりよく表現できることがわかった。
論文 参考訳(メタデータ) (2023-12-08T15:21:54Z) - NLLB-CLIP -- train performant multilingual image retrieval model on a
budget [65.268245109828]
NLLBモデルからテキストエンコーダを用いたNLLB-CLIP-CLIPモデルを提案する。
201言語でキャプションを持つ106,246の良質な画像のデータセットを自動生成しました。
我々は,NLLB-CLIPが最先端モデルに匹敵する品質であり,低リソース言語ではかなり優れていることを示す。
論文 参考訳(メタデータ) (2023-09-04T23:26:11Z) - SoTaNa: The Open-Source Software Development Assistant [81.86136560157266]
SoTaNaはオープンソースのソフトウェア開発アシスタントだ。
ソフトウェア工学の分野のための高品質な命令ベースのデータを生成する。
オープンソースの基盤モデルであるLLaMAを強化するためにパラメータ効率のよい微調整アプローチを採用している。
論文 参考訳(メタデータ) (2023-08-25T14:56:21Z) - Active Code Learning: Benchmarking Sample-Efficient Training of Code
Models [35.54965391159943]
ソフトウェアエンジニアリング(ML4Code)では、人的労力の少ないコードのモデルを効率的にトレーニングすることが、緊急の問題となっている。
アクティブな学習は、開発者が望ましいパフォーマンスでモデルを生成しながら、少ないデータでモデルをトレーニングすることを可能にするようなテクニックです。
本稿は、この重要な問題であるアクティブコード学習を研究するための最初のベンチマークを構築します。
論文 参考訳(メタデータ) (2023-06-02T03:26:11Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Model Reprogramming: Resource-Efficient Cross-Domain Machine Learning [65.268245109828]
視覚、言語、音声などのデータに富む領域では、ディープラーニングが高性能なタスク固有モデルを提供するのが一般的である。
リソース制限されたドメインでのディープラーニングは、(i)限られたデータ、(ii)制約付きモデル開発コスト、(iii)効果的な微調整のための適切な事前学習モデルの欠如など、多くの課題に直面している。
モデル再プログラミングは、ソースドメインから十分に訓練されたモデルを再利用して、モデル微調整なしでターゲットドメインのタスクを解くことで、リソース効率のよいクロスドメイン機械学習を可能にする。
論文 参考訳(メタデータ) (2022-02-22T02:33:54Z) - AstBERT: Enabling Language Model for Code Understanding with Abstract
Syntax Tree [3.1087379479634927]
抽象構文木(AST)を用いてプログラミング言語(PL)をよりよく理解することを目的とした事前学習型言語モデルAstBERTモデルを提案する。
具体的には、GitHubから大量のソースコード(javaとpythonの両方)を収集し、ソースコードに関する情報を解釈して統合することができます。
実験結果から,我々のAstBERTモデルが両下流タスクの最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2022-01-20T03:27:26Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。