論文の概要: Evaluation Methodologies for Code Learning Tasks
- arxiv url: http://arxiv.org/abs/2108.09619v1
- Date: Sun, 22 Aug 2021 02:38:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-25 04:31:14.756266
- Title: Evaluation Methodologies for Code Learning Tasks
- Title(参考訳): コード学習タスクの評価手法
- Authors: Pengyu Nie, Jiyang Zhang, Junyi Jessy Li, Raymond J. Mooney, Milos
Gligoric
- Abstract要約: 本稿では,新たな時間分割評価手法と,混合プロジェクトとクロスプロジェクトという2つの手法を定式化する。
方法論の影響を評価するため,コメント生成とメソッド命名タスクのための最近のコード学習MLモデルをトレーニングし,評価するために,タイムスタンプを用いたコード圧縮ペアのデータセットを収集する。
- 参考スコア(独自算出の注目度): 39.31429412029062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a growing interest in developing machine learning (ML) models
for code learning tasks, e.g., comment generation and method naming. Despite
substantial increase in the effectiveness of ML models, the evaluation
methodologies, i.e., the way people split datasets into training, validation,
and testing sets, were not well designed. Specifically, no prior work on the
aforementioned topics considered the timestamps of code and comments during
evaluation (e.g., examples in the testing set might be from 2010 and examples
from the training set might be from 2020). This may lead to evaluations that
are inconsistent with the intended use cases of the ML models. In this paper,
we formalize a novel time-segmented evaluation methodology, as well as the two
methodologies commonly used in the literature: mixed-project and cross-project.
We argue that time-segmented methodology is the most realistic. We also
describe various use cases of ML models and provide a guideline for using
methodologies to evaluate each use case. To assess the impact of methodologies,
we collect a dataset of code-comment pairs with timestamps to train and
evaluate several recent code learning ML models for the comment generation and
method naming tasks. Our results show that different methodologies can lead to
conflicting and inconsistent results. We invite the community to adopt the
time-segmented evaluation methodology.
- Abstract(参考訳): コード学習タスク(例えばコメント生成やメソッド命名など)のための機械学習(ML)モデルの開発に対する関心が高まっている。
MLモデルの有効性は大幅に向上したが、評価手法、すなわち、人々がデータセットをトレーニング、検証、テストセットに分割する方法は十分に設計されなかった。
具体的には、前述のトピックに関する以前の研究では、評価中のコードとコメントのタイムスタンプが考慮されていた(例えば、テストセットの例は2010年、トレーニングセットの例は2020年)。
これは、MLモデルの意図されたユースケースと矛盾する評価につながる可能性がある。
本稿では,新しい時間割評価手法を定式化し,文献で一般的に用いられる2つの手法であるmixed-projectとcross-projectについて述べる。
タイムセグメンテーションの方法論が最も現実的だと主張する。
また,MLモデルのさまざまなユースケースについて記述し,各ユースケースの評価に方法論を使用するためのガイドラインを提供する。
提案手法が与える影響を評価するために,タイムスタンプを用いたコード-コミットペアのデータセットを収集し,最近のコード学習mlモデルの学習と評価を行った。
その結果,異なる手法が相反する結果をもたらす可能性が示唆された。
タイムセグメンテーション評価手法を採用するようコミュニティに呼びかける。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - The Cram Method for Efficient Simultaneous Learning and Evaluation [0.9208007322096533]
同時に学習と評価を行うための汎用的で効率的な手法である「クラム」手法を導入する。
サンプル全体を学習と評価の両方に利用するため、クラミングはサンプル分割よりもはるかにデータ効率が高い。
広範囲にわたるシミュレーション研究により, 試料分離と比較すると, クラミングは標準誤差を40%以上低減することがわかった。
論文 参考訳(メタデータ) (2024-03-11T04:19:05Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Improving the Learning of Code Review Successive Tasks with Cross-Task
Knowledge Distillation [1.0878040851638]
本研究では,これらのタスクを同時に処理するために,クロスタスク知識蒸留を利用した新しいディープラーニングアーキテクチャdisCOREVを紹介する。
提案手法は, BLEUスコアによる評価値と, CodeBLEUスコアによるより正確なコード修正値から, より良いレビューコメントを生成する。
論文 参考訳(メタデータ) (2024-02-03T07:02:22Z) - Real-Time Evaluation in Online Continual Learning: A New Hope [104.53052316526546]
計算コストに関して,現在の継続学習(CL)手法を評価した。
簡単なベースラインは、この評価の下で最先端のCL法より優れている。
これは、既存のCL文献の大部分は、実用的でない特定の種類のストリームに適合していることを驚くほど示唆している。
論文 参考訳(メタデータ) (2023-02-02T12:21:10Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - On the Evaluation of Commit Message Generation Models: An Experimental
Study [33.19314967188712]
コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。
コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。
本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
論文 参考訳(メタデータ) (2021-07-12T12:38:02Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。