Fugu-MT 論文翻訳(概要): Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings

論文の概要: Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings

arxiv url: http://arxiv.org/abs/2410.12046v1
Date: Tue, 15 Oct 2024 20:32:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.034101
Title: Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings
Title（参考訳）: オンライン・オフライン設定のマッチングによるコミットメッセージ生成の現実的評価に向けて
Authors: Petr Tsvetkov, Aleksandra Eliseeva, Danny Dig, Alexander Bezzubov, Yaroslav Golubev, Timofey Bryksin, Yaroslav Zharov,
Abstract要約: コミットメッセージ生成は、ソフトウェアエンジニアリングにおいて重要なタスクであり、正しく評価することが難しい。オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。
参考スコア（独自算出の注目度）: 77.20838441870151
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Commit message generation (CMG) is a crucial task in software engineering that is challenging to evaluate correctly. When a CMG system is integrated into the IDEs and other products at JetBrains, we perform online evaluation based on user acceptance of the generated messages. However, performing online experiments with every change to a CMG system is troublesome, as each iteration affects users and requires time to collect enough statistics. On the other hand, offline evaluation, a prevalent approach in the research literature, facilitates fast experiments but employs automatic metrics that are not guaranteed to represent the preferences of real users. In this work, we describe a novel way we employed to deal with this problem at JetBrains, by leveraging an online metric - the number of edits users introduce before committing the generated messages to the VCS - to select metrics for offline experiments. To support this new type of evaluation, we develop a novel markup collection tool mimicking the real workflow with a CMG system, collect a dataset with 57 pairs consisting of commit messages generated by GPT-4 and their counterparts edited by human experts, and design and verify a way to synthetically extend such a dataset. Then, we use the final dataset of 656 pairs to study how the widely used similarity metrics correlate with the online metric reflecting the real users' experience. Our results indicate that edit distance exhibits the highest correlation, whereas commonly used similarity metrics such as BLEU and METEOR demonstrate low correlation. This contradicts the previous studies on similarity metrics for CMG, suggesting that user interactions with a CMG system in real-world settings differ significantly from the responses by human labelers operating within controlled research environments. We release all the code and the dataset for researchers: https://jb.gg/cmg-evaluation.
Abstract（参考訳）: コミットメッセージ生成(CMG)は、ソフトウェア工学において重要なタスクであり、正しく評価することが難しい。 JetBrainsのIDEや他の製品にCMGシステムが統合されると、生成されたメッセージのユーザ受け入れに基づいてオンライン評価を行う。しかし、CMGシステムの変更毎にオンライン実験を行うことは、各イテレーションがユーザに影響を与えるため、十分な統計収集に時間を要するため、厄介である。一方、オフライン評価(オフライン評価)は、研究文献で広く使われている手法であり、高速な実験を促進するが、実際のユーザの好みを表すことが保証されていない自動メトリクスを用いる。本稿では、ユーザがVCSに生成したメッセージをコミットする前に導入する編集回数というオンラインメトリックを活用し、オフライン実験のためのメトリクスを選択することで、JetBrainsでこの問題に対処する新しい方法について説明します。この新たなタイプの評価を支援するため,我々は,実際のワークフローをCMGシステムで模倣した新しいマークアップ収集ツールを開発し,GPT-4によって生成されたコミットメッセージと人間の専門家によって編集されたコミットメッセージからなる57対のデータセットを収集し,そのようなデータセットを合成的に拡張する方法の設計と検証を行った。次に、656組の最終データセットを用いて、広く使用されている類似度指標が、実際のユーザエクスペリエンスを反映したオンラインメトリクスとどのように関連しているかを調査する。その結果,編集距離が最も高い相関を示すのに対し,BLEUやMETEORなどの類似度は低い相関を示すことがわかった。これは、CMGの類似度指標に関する以前の研究と矛盾し、実環境におけるCMGシステムとのユーザインタラクションは、制御された研究環境内で動作している人間のラベルによる応答と大きく異なることを示唆している。すべてのコードと研究者のためのデータセットをリリースします。

関連論文リスト

MIRAGE: A Metric-Intensive Benchmark for Retrieval-Augmented Generation Evaluation [8.950307082012763]
大規模言語モデル(LLM)の生成能力向上に有効な手法として,検索拡張生成(RAG)が注目されている。本稿では,RAG評価に特化して設計された質問応答データセットであるMIRAGEについて述べる。 MIRAGEは、37,800エントリの検索プールにマッピングされた7,560のキュレートされたインスタンスで構成され、検索と生成の両方のタスクの効率的かつ正確な評価を可能にする。
論文参考訳（メタデータ） (2025-04-23T23:05:46Z)
QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance [1.433758865948252]
本研究では,RAG(Retrieval-Augmented Generation)システム構築のための新しいアーキテクチャを提案する。 RAGアーキテクチャは、ターゲット文書から応答を生成するために構築される。本稿では,本システムにおける検索機構の新しいアプローチQuIM-RAGを紹介する。
論文参考訳（メタデータ） (2025-01-06T01:07:59Z)
Improved Diversity-Promoting Collaborative Metric Learning for Recommendation [127.08043409083687]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。 textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-02T07:44:48Z)
RAG-Enhanced Commit Message Generation [8.858678357308726]
コミットメッセージ生成は研究ホットスポットになっている。手動でコミットメッセージを書くのに時間がかかります。本稿では,Retrieval-Augmented framework for CommiTメッセージ生成のためのREACTを提案する。
論文参考訳（メタデータ） (2024-06-08T16:24:24Z)
Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。本稿では,基準自由度に欠陥があるかどうかを考察する。 GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文参考訳（メタデータ） (2024-02-18T12:36:23Z)
Using Large Language Models for Commit Message Generation: A Preliminary Study [5.5784148764236114]
大規模言語モデル(LLM)はコミットメッセージを自動かつ効果的に生成するために使用することができる。 366サンプルの78%では, LLMが生成したコミットメッセージが人間によって最高のものと評価された。
論文参考訳（メタデータ） (2024-01-11T14:06:39Z)
Evaluation Metrics of Language Generation Models for Synthetic Traffic Generation Tasks [22.629816738693254]
BLEUのような一般的なNLGメトリクスは、合成トラフィック生成(STG)の評価には適していないことを示す。生成したトラフィックと実際のユーザテキストの分布を比較するために設計されたいくつかの指標を提案し,評価する。
論文参考訳（メタデータ） (2023-11-21T11:26:26Z)
On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文参考訳（メタデータ） (2023-10-16T06:41:16Z)
Towards Multiple References Era -- Addressing Data Leakage and Limited Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文参考訳（メタデータ） (2023-08-06T14:49:26Z)
Pointwise Mutual Information Based Metric and Decoding Strategy for Faithful Generation in Document Grounded Dialogs [17.691689809414843]
既存のメトリクスは、生成されたレスポンスとドキュメントの内容の類似度を測定します。本稿では,生成した応答とソース文書間のPMI(Conditional Point-wise Mutual Information)を利用する新しいメトリクスを提案する。 PMIは、文書が生成した応答に影響を与える範囲を定量化する。我々はこのアイデアに基づいて、より忠実な応答を予測するために、PMIを応答生成プロセスに組み込む新しい復号手法を構築します。
論文参考訳（メタデータ） (2023-05-20T13:34:34Z)
T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。 T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-12-12T06:29:04Z)
TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文参考訳（メタデータ） (2022-04-11T10:14:35Z)
Mining Implicit Entity Preference from User-Item Interaction Data for Knowledge Graph Completion via Adversarial Learning [82.46332224556257]
本稿では,知識グラフ補完タスクにおけるユーザインタラクションデータを活用することで,新たな逆学習手法を提案する。我々のジェネレータはユーザインタラクションデータから分離されており、識別器の性能を向上させるのに役立ちます。利用者の暗黙の実体的嗜好を発見するために,グラフニューラルネットワークに基づく精巧な協調学習アルゴリズムを設計する。
論文参考訳（メタデータ） (2020-03-28T05:47:33Z)
AliExpress Learning-To-Rank: Maximizing Online Model Performance without Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文参考訳（メタデータ） (2020-03-25T10:27:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。