論文の概要: On the Evaluation of Commit Message Generation Models: An Experimental
Study
- arxiv url: http://arxiv.org/abs/2107.05373v1
- Date: Mon, 12 Jul 2021 12:38:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:50:08.483795
- Title: On the Evaluation of Commit Message Generation Models: An Experimental
Study
- Title(参考訳): コミットメッセージ生成モデルの評価について:実験的検討
- Authors: Wei Tao, Yanlin Wang, Ensheng Shi, Lun Du, Hongyu Zhang, Dongmei
Zhang, Wenqiang Zhang
- Abstract要約: コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。
コミットメッセージを自動的に生成するために, 生成手法や検索手法を利用した様々な手法が提案されている。
本稿では,最先端のモデルとデータセットの体系的,詳細な分析を行う。
- 参考スコア(独自算出の注目度): 33.19314967188712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commit messages are natural language descriptions of code changes, which are
important for program understanding and maintenance. However, writing commit
messages manually is time-consuming and laborious, especially when the code is
updated frequently. Various approaches utilizing generation or retrieval
techniques have been proposed to automatically generate commit messages. To
achieve a better understanding of how the existing approaches perform in
solving this problem, this paper conducts a systematic and in-depth analysis of
the state-of-the-art models and datasets. We find that: (1) Different variants
of the BLEU metric are used in previous works, which affects the evaluation and
understanding of existing methods. (2) Most existing datasets are crawled only
from Java repositories while repositories in other programming languages are
not sufficiently explored. (3) Dataset splitting strategies can influence the
performance of existing models by a large margin. Some models show better
performance when the datasets are split by commit, while other models perform
better when the datasets are split by timestamp or by project. Based on our
findings, we conduct a human evaluation and find the BLEU metric that best
correlates with the human scores for the task. We also collect a large-scale,
information-rich, and multi-language commit message dataset MCMD and evaluate
existing models on this dataset. Furthermore, we conduct extensive experiments
under different dataset splitting strategies and suggest the suitable models
under different scenarios. Based on the experimental results and findings, we
provide feasible suggestions for comprehensively evaluating commit message
generation models and discuss possible future research directions. We believe
this work can help practitioners and researchers better evaluate and select
models for automatic commit message generation.
- Abstract(参考訳): コミットメッセージは、コード変更の自然言語記述であり、プログラムの理解とメンテナンスに重要である。
しかし、特にコードが頻繁に更新される場合、手動でコミットメッセージを書くのは時間がかかり、手間がかかる。
コミットメッセージを自動生成するために、生成または検索技術を利用した様々なアプローチが提案されている。
この問題に対する既存のアプローチの理解を深めるために,本稿では,最先端のモデルとデータセットの体系的かつ詳細な分析を行う。
1)既存の手法の評価と理解に影響を及ぼすBLEU計量の異なる変種が過去の研究で用いられている。
2) 既存のデータセットのほとんどはJavaリポジトリからのみクロールされるが、他のプログラミング言語のリポジトリは十分に調査されていない。
3) データセット分割戦略は,既存モデルの性能に大きなマージンを与えることができる。
データセットがコミットによって分割された場合のパフォーマンスが向上するモデルや、タイムスタンプやプロジェクトによってデータセットが分割された場合のパフォーマンスが向上するモデルもある。
本研究は,人間の評価を行い,その課題のスコアと最も相関するBLEU測定値を求める。
また、大規模で情報豊富なマルチ言語コミットメッセージデータセットmcmdを収集し、このデータセット上で既存のモデルを評価する。
さらに、異なるデータセット分割戦略の下で広範な実験を行い、異なるシナリオで適切なモデルを提案する。
実験結果と結果に基づいて,コミットメッセージ生成モデルを包括的に評価し,今後の研究方向性を議論するための提案を行う。
この作業は、実践者や研究者が自動コミットメッセージ生成のためのモデルを評価し、選択するのに役立ちます。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists [41.94295877935867]
データサイエンスにおける最も知識集約的な課題の1つに取り組むために設計された,大規模言語モデルのベンチマークを示す。
提案手法のFeatEngは,LLMの幅広い能力を安価かつ効率的に評価できることを実証する。
論文 参考訳(メタデータ) (2024-10-30T17:59:01Z) - EmbedLLM: Learning Compact Representations of Large Language Models [28.49433308281983]
大規模言語モデルのコンパクトなベクトル表現を学習するためのフレームワークである EmbedLLM を提案する。
このような埋め込みを学習するためのエンコーダ-デコーダアプローチと,その有効性を評価するための体系的なフレームワークを導入する。
EmbedLLMはモデルルーティングにおいて,精度とレイテンシの両方において,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-03T05:43:24Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - CommitBench: A Benchmark for Commit Message Generation [22.03783968903916]
既存のデータセットはコミット選択の品質など,さまざまな問題を示す。
新しい大規模データセットであるCommitBenchをコンパイルし、データセット作成のベストプラクティスを採用しています。
私たちはCommitBenchを使って既存のモデルを比較し、他のアプローチがソースコードで事前訓練されたTransformerモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-08T09:56:45Z) - TrueTeacher: Learning Factual Consistency Evaluation with Large Language
Models [20.09470051458651]
本稿では,多種多様なモデル生成要約を注釈付けして合成データを生成する方法であるTrueTeacherを紹介する。
以前の作業とは異なり、TrueTeacherは人間が書いた要約に頼らず、本質的に多言語である。
論文 参考訳(メタデータ) (2023-05-18T17:58:35Z) - DORE: Document Ordered Relation Extraction based on Generative Framework [56.537386636819626]
本稿では,既存のDocREモデルの根本原因について検討する。
本稿では,モデルが学習しやすく,決定論的な関係行列から記号列と順序列を生成することを提案する。
4つのデータセットに対する実験結果から,提案手法は生成型DocREモデルの性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2022-10-28T11:18:10Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。