論文の概要: Active Code Learning: Benchmarking Sample-Efficient Training of Code
Models
- arxiv url: http://arxiv.org/abs/2306.01250v1
- Date: Fri, 2 Jun 2023 03:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 04:42:53.591145
- Title: Active Code Learning: Benchmarking Sample-Efficient Training of Code
Models
- Title(参考訳): アクティブなコード学習: コードモデルのサンプル効率なトレーニングのベンチマーク
- Authors: Qiang Hu, Yuejun Guo, Xiaofei Xie, Maxime Cordy, Lei Ma, Mike
Papadakis, and Yves Le Traon
- Abstract要約: ソフトウェアエンジニアリング(ML4Code)では、人的労力の少ないコードのモデルを効率的にトレーニングすることが、緊急の問題となっている。
アクティブな学習は、開発者が望ましいパフォーマンスでモデルを生成しながら、少ないデータでモデルをトレーニングすることを可能にするようなテクニックです。
本稿は、この重要な問題であるアクティブコード学習を研究するための最初のベンチマークを構築します。
- 参考スコア(独自算出の注目度): 35.54965391159943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The costly human effort required to prepare the training data of machine
learning (ML) models hinders their practical development and usage in software
engineering (ML4Code), especially for those with limited budgets. Therefore,
efficiently training models of code with less human effort has become an
emergent problem. Active learning is such a technique to address this issue
that allows developers to train a model with reduced data while producing
models with desired performance, which has been well studied in computer vision
and natural language processing domains. Unfortunately, there is no such work
that explores the effectiveness of active learning for code models. In this
paper, we bridge this gap by building the first benchmark to study this
critical problem - active code learning. Specifically, we collect 11
acquisition functions~(which are used for data selection in active learning)
from existing works and adapt them for code-related tasks. Then, we conduct an
empirical study to check whether these acquisition functions maintain
performance for code data. The results demonstrate that feature selection
highly affects active learning and using output vectors to select data is the
best choice. For the code summarization task, active code learning is
ineffective which produces models with over a 29.64\% gap compared to the
expected performance. Furthermore, we explore future directions of active code
learning with an exploratory study. We propose to replace distance calculation
methods with evaluation metrics and find a correlation between these
evaluation-based distance methods and the performance of code models.
- Abstract(参考訳): 機械学習(ml)モデルのトレーニングデータを作成するのに必要なコストの高い人間的努力は、ソフトウェア工学(ml4code)における実践的な開発と使用を妨げる。
そのため、人的労力の少ないコードのモデルを効率的にトレーニングすることが、緊急の問題となっている。
アクティブラーニング(active learning)は、コンピュータビジョンや自然言語処理領域でよく研究されてきた、望ましいパフォーマンスのモデルを作成しながら、少ないデータでモデルをトレーニングできる技術である。
残念ながら、コードモデルに対するアクティブな学習の有効性を探求する研究は存在しない。
本稿では、この重要な問題(アクティブコード学習)を研究するための最初のベンチマークを構築することで、このギャップを埋める。
具体的には、既存の作業から11の獲得関数(アクティブラーニングでデータ選択に使用される)を収集し、コード関連のタスクに適応させます。
そして、これらの取得関数がコードデータのパフォーマンスを維持するかどうかを実証研究する。
その結果、特徴選択がアクティブラーニングに大きく影響し、データ選択に出力ベクトルが最適であることが示されている。
コード要約タスクでは、アクティブなコード学習は非効率であり、期待されるパフォーマンスと比較して29.64倍の差があるモデルを生成する。
さらに,探索的学習によるアクティブコード学習の今後の方向性について検討する。
本研究では, 距離計算法を評価指標に置き換え, 評価に基づく距離法とコードモデルの性能の関係を見いだす。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - regAL: Python Package for Active Learning of Regression Problems [0.0]
PythonパッケージregALでは、レグレッション問題に対するさまざまなアクティブな学習戦略を評価することができる。
我々は,レグレッション問題に対する様々なアクティブ学習戦略を評価することができるPythonパッケージregALを提案する。
論文 参考訳(メタデータ) (2024-10-23T14:34:36Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - Enhancing Semantic Code Search with Multimodal Contrastive Learning and
Soft Data Augmentation [50.14232079160476]
コード検索のためのマルチモーダルコントラスト学習とソフトデータ拡張を用いた新しい手法を提案する。
我々は,6つのプログラミング言語を用いた大規模データセットにおけるアプローチの有効性を評価するために,広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-07T08:49:27Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - Learnability of Learning Performance and Its Application to Data
Valuation [11.78594243870616]
ほとんどの機械学習(ML)タスクでは、与えられたデータセットで学習パフォーマンスを評価するには、集中的な計算が必要である。
学習性能を効率的に推定する能力は、アクティブラーニング、データ品質管理、データバリュエーションといった幅広いアプリケーションに恩恵をもたらす可能性がある。
最近の実証研究では、多くの一般的なMLモデルに対して、少量のサンプルを用いて任意の入力データセットの学習性能を予測するパラメトリックモデルを正確に学習できることが示されている。
論文 参考訳(メタデータ) (2021-07-13T18:56:04Z) - Probabilistic Active Meta-Learning [15.432006404678981]
先行経験に基づくタスク選択をメタ学習アルゴリズムに導入する。
シミュレーションロボット実験の強いベースラインと比較して,本手法がデータ効率を向上させるという実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-07-17T12:51:42Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。