論文の概要: Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings
- arxiv url: http://arxiv.org/abs/2410.12046v2
- Date: Wed, 08 Jan 2025 15:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:54:17.082395
- Title: Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings
- Title(参考訳): オンライン・オフライン設定のマッチングによるコミットメッセージ生成の現実的評価に向けて
- Authors: Petr Tsvetkov, Aleksandra Eliseeva, Danny Dig, Alexander Bezzubov, Yaroslav Golubev, Timofey Bryksin, Yaroslav Zharov,
- Abstract要約: オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
- 参考スコア(独自算出の注目度): 77.20838441870151
- License:
- Abstract: When a Commit Message Generation (CMG) system is integrated into the IDEs and other products at JetBrains, we perform online evaluation based on user acceptance of the generated messages. However, performing online experiments with every change to a CMG system is troublesome, as each iteration affects users and requires time to collect enough statistics. On the other hand, offline evaluation, a prevalent approach in the research literature, facilitates fast experiments but employs automatic metrics that are not guaranteed to represent the preferences of real users. In this work, we describe a novel way we employed to deal with this problem at JetBrains, by leveraging an online metric - the number of edits users introduce before committing the generated messages to the VCS - to select metrics for offline experiments. To support this new type of evaluation, we develop a novel markup collection tool mimicking the real workflow with a CMG system, collect a dataset with 57 pairs consisting of commit messages generated by GPT-4 and their counterparts edited by human experts, and design and verify a way to synthetically extend such a dataset. Then, we use the final dataset of 656 pairs to study how the widely used similarity metrics correlate with the online metric reflecting the real users' experience. Our results indicate that edit distance exhibits the highest correlation with the online metric, whereas commonly used similarity metrics such as BLEU and METEOR demonstrate low correlation. This contradicts the previous studies on similarity metrics for CMG, suggesting that user interactions with a CMG system in real-world settings differ significantly from the responses by human labelers within controlled environments. We release all the code and the dataset to support future research in the field: https://jb.gg/cmg-evaluation.
- Abstract(参考訳): JetBrainsのIDEや他の製品にCommit Message Generation(CMG)システムが組み込まれている場合、生成されたメッセージのユーザ受け入れに基づいてオンライン評価を行う。
しかし、CMGシステムの変更毎にオンライン実験を行うことは、各イテレーションがユーザに影響を与えるため、十分な統計収集に時間を要するため、厄介である。
一方、オフライン評価(オフライン評価)は、研究文献で広く使われている手法であり、高速な実験を促進するが、実際のユーザの好みを表すことが保証されていない自動メトリクスを用いる。
本稿では、ユーザがVCSに生成したメッセージをコミットする前に導入する編集回数というオンラインメトリックを活用し、オフライン実験のためのメトリクスを選択することで、JetBrainsでこの問題に対処する新しい方法について説明します。
この新たなタイプの評価を支援するため,我々は,実際のワークフローをCMGシステムで模倣した新しいマークアップ収集ツールを開発し,GPT-4によって生成されたコミットメッセージと人間の専門家によって編集されたコミットメッセージからなる57対のデータセットを収集し,そのようなデータセットを合成的に拡張する方法の設計と検証を行った。
次に、656組の最終データセットを用いて、広く使用されている類似度指標が、実際のユーザエクスペリエンスを反映したオンラインメトリクスとどのように関連しているかを調査する。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
これは、CMGの類似度指標に関する以前の研究と矛盾し、実環境におけるCMGシステムとのユーザインタラクションが、制御された環境内の人間のラベルによる応答と大きく異なることを示唆している。
将来の研究をサポートするために、すべてのコードとデータセットをリリースします。
関連論文リスト
- QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。
RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。
本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文 参考訳(メタデータ) (2025-01-06T01:07:59Z) - RAG-Enhanced Commit Message Generation [8.858678357308726]
コミットメッセージ生成は研究ホットスポットになっている。
手動でコミットメッセージを書くのに時間がかかります。
本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。
論文 参考訳(メタデータ) (2024-06-08T16:24:24Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Evaluation Metrics of Language Generation Models for Synthetic Traffic
Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。
生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文 参考訳(メタデータ) (2023-11-21T11:26:26Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Pointwise Mutual Information Based Metric and Decoding Strategy for
Faithful Generation in Document Grounded Dialogs [17.691689809414843]
既存のメトリクスは、生成されたレスポンスとドキュメントの内容の類似度を測定します。
本稿では,生成した応答とソース文書間のPMI(Conditional Point-wise Mutual Information)を利用する新しいメトリクスを提案する。
PMIは、文書が生成した応答に影響を与える範囲を定量化する。
我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。
論文 参考訳(メタデータ) (2023-05-20T13:34:34Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。