論文の概要: ReleaseEval: A Benchmark for Evaluating Language Models in Automated Release Note Generation
- arxiv url: http://arxiv.org/abs/2511.02713v1
- Date: Tue, 04 Nov 2025 16:31:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.109615
- Title: ReleaseEval: A Benchmark for Evaluating Language Models in Automated Release Note Generation
- Title(参考訳): ReleaseEval: 自動リリースノート生成における言語モデルの評価ベンチマーク
- Authors: Qianru Meng, Zhaochun Ren, Joost Visser,
- Abstract要約: ReleaseEvalは、自動リリースノート生成のための言語モデルを評価するために設計されたベンチマークである。
6つのプログラミング言語にわたる3,369のリポジトリから94,987のリリースノートを含んでいる。
自動評価と人的評価は、大きな言語モデルが従来のベースラインを一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 20.424587551582153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated release note generation addresses the challenge of documenting frequent software updates, where manual efforts are time-consuming and prone to human error. Although recent advances in language models further enhance this process, progress remains hindered by dataset limitations, including the lack of explicit licensing and limited reproducibility, and incomplete task design that relies mainly on commit messages for summarization while overlooking fine-grained contexts such as commit hierarchies and code changes. To fill this gap, we introduce ReleaseEval, a reproducible and openly licensed benchmark designed to systematically evaluate language models for automated release note generation. ReleaseEval comprises 94,987 release notes from 3,369 repositories across 6 programming languages, and supports three task settings with three levels of input granularity: (1) commit2sum, which generates release notes from commit messages; (2) tree2sum, which incorporates commit tree structures; and (3) diff2sum, which leverages fine-grained code diffs. Both automated and human evaluations show that large language models consistently outperform traditional baselines across all tasks, achieving substantial gains on tree2sum, while still struggling on diff2sum. These findings highlight LLMs' proficiency in leveraging structured information while revealing challenges in abstracting from long code diffs.
- Abstract(参考訳): 自動リリースノート生成は、頻繁なソフトウェアアップデートの文書化という課題に対処する。
言語モデルの最近の進歩は、このプロセスをさらに強化する一方で、明示的なライセンスの欠如や限定的な再現性、要約のためのコミットメッセージに主に依存する不完全なタスク設計など、データセットの制限によって進歩が妨げられている。
このギャップを埋めるために、自動リリースノート生成のための言語モデルを体系的に評価するために設計された、再現可能でオープンなライセンス付きベンチマークであるReleaseEvalを紹介した。
ReleaseEvalは6つのプログラミング言語にわたる3,369のリポジトリから94,987のリリースノートで構成されており、(1)コミットメッセージからリリースノートを生成するcommit2sum、(2)コミットツリー構造を組み込んだtree2sum、(3)きめ細かいコード差を利用したdiff2sumという3つのタスク設定をサポートしている。
自動評価と人的評価の両方で、大きな言語モデルはすべてのタスクにおいて従来のベースラインを一貫して上回り、なおもdiff2sumに苦戦している。
これらの知見は、長いコード差分から抽象化する際の課題を明らかにしながら、構造化情報を活用するLLMの習熟度を強調した。
関連論文リスト
- PLSemanticsBench: Large Language Models As Programming Language Interpreters [31.611330217819713]
大規模言語モデル(LLMs)がコード推論に長けているため、自然な疑問が生じる: LLMはプログラム(つまり、インタプリタとして振舞う)を純粋にプログラミング言語の形式的意味論に基づいて実行できるか?
本稿では, 命令型言語IMPを用いて, 小ステップ操作意味論 (SOS) と書き直しに基づく操作意味論 (K-semantics) によって定式化されている問題について検討する。
本稿では,Human-Written,LLM-Translated,Fuzzer-Generatedの3つの評価セットを提案する。
論文 参考訳(メタデータ) (2025-10-03T18:23:26Z) - SLICET5: Static Program Slicing using Language Models with Copy Mechanism and Constrained Decoding [13.61350801915956]
静的プログラムスライシングはソフトウェア工学の基本的な技術である。
ourtoolは静的プログラムスライシングをシーケンス・ツー・シーケンスタスクとして再構成する新しいスライシングフレームワークである。
ourtoolは、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-09-22T03:14:47Z) - Code Review Without Borders: Evaluating Synthetic vs. Real Data for Review Recommendation [37.86790434630698]
LLM(Large Language Models)は、十分なリソースを持つ言語からのコード変更を、未表現言語や新興言語の等価な変更に変換するために用いられる。
実ラベル付きデータで訓練されたモデルと比較した。
このアプローチは、自動コードレビュー機能を急速に進化するテクノロジスタックに拡張するためのスケーラブルなパスを提供する。
論文 参考訳(メタデータ) (2025-09-05T05:17:14Z) - MRG-Bench: Evaluating and Exploring the Requirements of Context for Repository-Level Code Generation [0.7342677574855649]
大規模言語モデルのより正確な評価を提供する新しいデータセットである textbfMRG-Bench を紹介する。
我々は,大規模言語モデル,長期コンテキストモデル,RAG関連手法を含む実験を行う。
その結果、ほとんどの手法は「ユーザ要求を理解することの難しさ」に悩まされており、割り当てられたタスクを正確に理解できないことがわかった。
論文 参考訳(メタデータ) (2025-08-05T01:53:45Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。