論文の概要: ReFEree: Reference-Free and Fine-Grained Method for Evaluating Factual Consistency in Real-World Code Summarization
- arxiv url: http://arxiv.org/abs/2604.10520v1
- Date: Sun, 12 Apr 2026 08:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.071792
- Title: ReFEree: Reference-Free and Fine-Grained Method for Evaluating Factual Consistency in Real-World Code Summarization
- Title(参考訳): ReFEree: 実世界のコード要約におけるFactual Consistencyの評価のための参照フリーおよびファイングラインド手法
- Authors: Suyoung Bae, CheolWon Na, Jaehoon Lee, Yumin Lee, YunSeok Choi, Jee-Hyong Lee,
- Abstract要約: 実世界のコード要約における事実整合性を評価するための参照不要かつきめ細かな手法であるReFEreeを提案する。
コード要約に特有の現実的矛盾基準を定義し,セグメントレベルで評価する。
人間の注釈付き事実整合性ラベルを用いたコード要約ベンチマークを構築した。
- 参考スコア(独自算出の注目度): 26.888861966493476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) have become capable of generating long and descriptive code summaries, accurate and reliable evaluation of factual consistency has become a critical challenge. However, previous evaluation methods are primarily designed for short summaries of isolated code snippets. Consequently, they struggle to provide fine-grained evaluation of multi-sentence functionalities and fail to accurately assess dependency context commonly found in real-world code summaries. To address this, we propose ReFEree, a reference-free and fine-grained method for evaluating factual consistency in real-world code summaries. We define factual inconsistency criteria specific to code summaries and evaluate them at the segment level using these criteria along with dependency information. These segment-level results are then aggregated into a fine-grained score. We construct a code summarization benchmark with human-annotated factual consistency labels. The evaluation results demonstrate that ReFEree achieves the highest correlation with human judgment among 13 baselines, improving 15-18% over the previous state-of-the-art. Our code and data are available at https://github.com/bsy99615/ReFEree.git.
- Abstract(参考訳): 大規模言語モデル(LLM)が長く記述的なコード要約を生成するようになったため、事実整合性の正確かつ信頼性の高い評価が重要な課題となっている。
しかし、従来の評価方法は、主に孤立したコードスニペットの短い要約のために設計されている。
その結果、実世界のコード要約でよく見られる依存性コンテキストを正確に評価できないため、多文関数の詳細な評価に苦慮している。
これを解決するために,実世界のコード要約における事実整合性を評価するための参照不要かつきめ細かな手法であるReFEreeを提案する。
コード要約に特有の現実的不整合基準を定義し,これらの基準と依存性情報を用いてセグメントレベルで評価する。
これらのセグメントレベルの結果は、きめ細かいスコアに集約される。
人間の注釈付き事実整合性ラベルを用いたコード要約ベンチマークを構築した。
評価の結果, ReFEree は, 従来よりも15~18%向上した。
私たちのコードとデータはhttps://github.com/bsy99615/ReFEree.git.comで公開されています。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - Masked Summarization to Generate Factually Inconsistent Summaries for
Improved Factual Consistency Checking [28.66287193703365]
本稿では,キー情報を隠蔽したソーステキストと参照要約を用いて,現実的に一貫性のない要約を生成することを提案する。
7つのベンチマークデータセットを用いた実験により,提案手法を用いて生成した要約に基づいて訓練された実例整合性分類器が既存モデルを上回っていることが示された。
論文 参考訳(メタデータ) (2022-05-04T12:48:49Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Factual Consistency Evaluation for Text Summarization via Counterfactual
Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。
我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2021-08-30T11:48:41Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。