Fugu-MT 論文翻訳(概要): Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond

論文の概要: Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond

arxiv url: http://arxiv.org/abs/2404.14824v1
Date: Tue, 23 Apr 2024 08:24:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 14:51:00.750970
Title: Automated Commit Message Generation with Large Language Models: An Empirical Study and Beyond
Title（参考訳）: 大規模言語モデルを用いた自動コミットメッセージ生成:実証的研究とその先
Authors: Pengyu Xue, Linhao Wu, Zhongxing Yu, Zhi Jin, Zhen Yang, Xinyi Li, Zhenyu Yang, Yue Tan,
Abstract要約: コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としている。本稿では,Large Language Models (LLMs) を用いて高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の包括的な実験を行う。
参考スコア（独自算出の注目度）: 24.151927600694066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Commit Message Generation (CMG) approaches aim to automatically generate commit messages based on given code diffs, which facilitate collaboration among developers and play a critical role in Open-Source Software (OSS). Very recently, Large Language Models (LLMs) have demonstrated extensive applicability in diverse code-related task. But few studies systematically explored their effectiveness using LLMs. This paper conducts the first comprehensive experiment to investigate how far we have been in applying LLM to generate high-quality commit messages. Motivated by a pilot analysis, we first clean the most widely-used CMG dataset following practitioners' criteria. Afterward, we re-evaluate diverse state-of-the-art CMG approaches and make comparisons with LLMs, demonstrating the superior performance of LLMs against state-of-the-art CMG approaches. Then, we further propose four manual metrics following the practice of OSS, including Accuracy, Integrity, Applicability, and Readability, and assess various LLMs accordingly. Results reveal that GPT-3.5 performs best overall, but different LLMs carry different advantages. To further boost LLMs' performance in the CMG task, we propose an Efficient Retrieval-based In-Context Learning (ICL) framework, namely ERICommiter, which leverages a two-step filtering to accelerate the retrieval efficiency and introduces semantic/lexical-based retrieval algorithm to construct the ICL examples. Extensive experiments demonstrate the substantial performance improvement of ERICommiter on various LLMs for code diffs of different programming languages. Meanwhile, ERICommiter also significantly reduces the retrieval time while keeping almost the same performance. Our research contributes to the understanding of LLMs' capabilities in the CMG field and provides valuable insights for practitioners seeking to leverage these tools in their workflows.
Abstract（参考訳）: コミットメッセージ生成(CMG)アプローチは、与えられたコード差分に基づいてコミットメッセージを自動的に生成することを目的としており、開発者間のコラボレーションを促進し、オープンソースソフトウェア(OSS)において重要な役割を果たす。最近、Large Language Models (LLMs) は様々なコード関連タスクに広範な適用性を示した。しかし、LSMを用いてその効果を体系的に研究する研究はほとんどない。本稿では,LLMによる高品質なコミットメッセージの生成にどの程度の期間を費やしてきたかを調べるための,最初の総合的な実験を行う。パイロット分析により,まず,実践者の基準に従って,最も広く使用されているCMGデータセットをクリーニングする。その後、多種多様な最先端CMGアプローチを再評価し、LLMとの比較を行い、最先端CMGアプローチに対するLCMの優れた性能を示す。さらに、OSSの実践に続き、精度、統合性、適用性、可読性を含む4つの手動メトリクスを提案し、それに応じて様々なLCMを評価する。その結果, GPT-3.5は総じて高い性能を示したが, 異なるLLMは異なる利点を示した。 CMGタスクにおけるLLMの性能をさらに向上するために,2段階のフィルタリングを活用して検索効率を向上し,意味・語彙に基づく検索アルゴリズムを導入してICLの例を構築する,効率的な検索型インコンテキスト学習(ICL)フレームワークであるERICommiterを提案する。様々なプログラミング言語のコード差分に対する様々な LLM 上でのERICommiter の大幅な性能向上を実験により実証した。一方、ERICommiterは、ほぼ同じ性能を維持しながら、検索時間を著しく短縮する。我々の研究は、CMG分野におけるLLMの能力の理解に寄与し、これらのツールをワークフローで活用しようとする実践者に貴重な洞察を提供する。

関連論文リスト

Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文参考訳（メタデータ） (2025-04-07T16:05:52Z)
Teamwork makes the dream work: LLMs-Based Agents for GitHub README.MD Summarization [7.330697128881243]
様々な大規模言語モデル(LLM)のシナジーを増幅するための新しいアプローチとしてメタジェンテを提案する。メタジェンテ(Metagente)は、特殊エージェント間の評価、フィードバック、協調を通じてシステムを自己最適化する一連のLLMに基づくマルチエージェントフレームワークである。最も関連するベンチマークであるGitSumと比較して、パフォーマンスの向上は27.63%から60.43%である。
論文参考訳（メタデータ） (2025-03-13T20:42:39Z)
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection [15.026084450436976]
本稿では,ソフトウェア脆弱性検出タスクにおいて,大規模言語モデル(LLM)の性能を評価する。 Pythonで8,260の脆弱な関数、Javaで7,505、JavaScriptで28,983のデータセットをコンパイルしました。これらのLSMは、5つの微調整された小さな言語モデルと2つのオープンソースの静的アプリケーションセキュリティテストツールに対してベンチマークされる。
論文参考訳（メタデータ） (2025-03-03T11:56:00Z)
Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents [17.773801766612703]
大規模言語モデル(LLM)ベースのエージェントシステムは、従来のNLPタスクを超えて、現実世界のアプリケーションにおいて大きな進歩を遂げてきた。本稿では,インタラクティブ環境において,より適用性が高く,課題の多いOvercooked-AIゲーム上に構築された新しいベンチマークであるCollab-Overcookedを提案する。
論文参考訳（メタデータ） (2025-02-27T13:31:13Z)
Experiences from Using LLMs for Repository Mining Studies in Empirical Software Engineering [12.504438766461027]
大規模言語モデル(LLM)は、ソフトウェアリポジトリを分析する革新的な方法を提供することで、ソフトウェア工学(SE)を変革した。私たちの研究は、PRIMES(Prompt Refinement and Insights for Mining Empirical Software repository)というフレームワークをまとめています。この結果,PRIMESの標準化により,LLMを用いた研究の信頼性と精度が向上することが示唆された。
論文参考訳（メタデータ） (2024-11-15T06:08:57Z)
Instruction Tuning Vs. In-Context Learning: Revisiting Large Language Models in Few-Shot Computational Social Science [0.1499944454332829]
In-context Learning (ICL) とインストラクションチューニング (IT) を用いた大規模言語モデル (LLM) の分類性能の評価を行った。 ICLは、明示的な勾配更新なしで例から学ぶことで、タスク適応の迅速な代替手段を提供する。私たちの研究は、CSSタスクを数ショットで処理する上で、ICLの重大な利点を強調しています。
論文参考訳（メタデータ） (2024-09-23T02:43:08Z)
Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めたモデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文参考訳（メタデータ） (2024-09-07T13:57:41Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。 LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文参考訳（メタデータ） (2024-06-20T13:08:09Z)
Efficient Prompting for LLM-based Generative Internet of Things [88.84327500311464]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示しており、最近、IoT(Internet of Things)アプリケーションにLLMの能力を統合することが研究の注目を集めている。セキュリティ上の懸念から、多くの機関は最先端の商用LLMサービスへのアクセスを避け、ローカルネットワーク環境でのオープンソースLLMのデプロイと利用を必要としている。本研究では,LLMを用いた生成IoT(Generative IoT)システムを提案する。
論文参考訳（メタデータ） (2024-06-14T19:24:00Z)
Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions [2.5179515260542544]
大規模言語モデル (LLM) は、テキスト生成、質問応答、テキスト要約における汎用的な応用のために、学界や業界全体で大きな注目を集めている。パフォーマンスを定量化するためには、既存のメトリクスを包括的に把握することが重要です。本稿では,メトリクスの観点からLLM評価を包括的に調査し,現在使用されているメトリクスの選択と解釈について考察する。
論文参考訳（メタデータ） (2024-04-14T03:54:00Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練されるコードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文参考訳（メタデータ） (2024-01-01T16:51:20Z)
LLMRec: Benchmarking Large Language Models on Recommendation Task [54.48899723591296]
推奨領域におけるLarge Language Models (LLMs) の適用について, 十分に検討されていない。我々は、評価予測、シーケンシャルレコメンデーション、直接レコメンデーション、説明生成、レビュー要約を含む5つのレコメンデーションタスクにおいて、市販のLLMをベンチマークする。ベンチマークの結果,LLMは逐次的・直接的推薦といった精度に基づくタスクにおいて適度な熟練度しか示さないことがわかった。
論文参考訳（メタデータ） (2023-08-23T16:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。