論文の概要: Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization
- arxiv url: http://arxiv.org/abs/2312.15475v1
- Date: Sun, 24 Dec 2023 13:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:49:18.006790
- Title: Evaluating Code Summarization Techniques: A New Metric and an Empirical
Characterization
- Title(参考訳): コード要約手法の評価:新しいメトリクスと経験的キャラクタリゼーション
- Authors: Antonio Mastropaolo, Matteo Ciniselli, Massimiliano Di Penta, Gabriele
Bavota
- Abstract要約: 生成した要約の質を計測する際の様々な種類の指標の相補性について検討する。
我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
- 参考スコア(独自算出の注目度): 16.127739014966487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several code summarization techniques have been proposed in the literature to
automatically document a code snippet or a function. Ideally, software
developers should be involved in assessing the quality of the generated
summaries. However, in most cases, researchers rely on automatic evaluation
metrics such as BLEU, ROUGE, and METEOR. These metrics are all based on the
same assumption: The higher the textual similarity between the generated
summary and a reference summary written by developers, the higher its quality.
However, there are two reasons for which this assumption falls short: (i)
reference summaries, e.g., code comments collected by mining software
repositories, may be of low quality or even outdated; (ii) generated summaries,
while using a different wording than a reference one, could be semantically
equivalent to it, thus still being suitable to document the code snippet. In
this paper, we perform a thorough empirical investigation on the
complementarity of different types of metrics in capturing the quality of a
generated summary. Also, we propose to address the limitations of existing
metrics by considering a new dimension, capturing the extent to which the
generated summary aligns with the semantics of the documented code snippet,
independently from the reference summary. To this end, we present a new metric
based on contrastive learning to capture said aspect. We empirically show that
the inclusion of this novel dimension enables a more effective representation
of developers' evaluations regarding the quality of automatically generated
summaries.
- Abstract(参考訳): 文献では、コードスニペットや関数を自動的に文書化するいくつかのコード要約技術が提案されている。
理想的には、ソフトウェア開発者は生成された要約の品質を評価することに関与するべきです。
しかし、ほとんどの場合、研究者はBLEU、ROUGE、METEORといった自動評価指標に依存している。
これらのメトリクスは、すべて同じ仮定に基づいています。生成された要約と開発者が書いた参照要約のテキスト的類似度が高いほど、その品質は高くなります。
しかし、この仮定が不足している理由は2つある。
i) 参照要約,例えば,ソフトウェアリポジトリのマイニングによって収集されたコードコメントは,品質が低く,あるいは時代遅れである場合もあります。
(ii)生成した要約は、参照のものとは異なる単語を用いるが、意味的にそれと等価であり、コードスニペットの文書化に適している。
本稿では,生成した要約の質を捉えるために,様々な種類の指標の相補性に関する徹底的な実証調査を行う。
また,新たな次元を考慮し,生成した要約が参照要約から独立して文書化されたコードスニペットのセマンティクスと一致する範囲を把握し,既存のメトリクスの限界に対処することを提案する。
そこで我々は,その側面を捉えるために,コントラスト学習に基づく新しい指標を提案する。
この新たな次元を取り入れることで,自動生成した要約の品質に関する開発者の評価をより効果的に表現できることを実証的に示す。
関連論文リスト
- Using Similarity to Evaluate Factual Consistency in Summaries [2.7595794227140056]
抽象要約器は流動的な要約を生成するが、生成したテキストの事実性は保証されない。
本稿では,ゼロショット事実性評価尺度であるSBERTScoreを提案する。
実験の結果,SBERTScoreでは,各手法の強度が異なることが示唆された。
論文 参考訳(メタデータ) (2024-09-23T15:02:38Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - WIDAR -- Weighted Input Document Augmented ROUGE [26.123086537577155]
提案する指標WIDARは,基準要約の品質に応じて評価スコアを適応させるように設計されている。
提案指標は, 整合性, 整合性, 流速性, 人的判断の関連性において, ROUGEよりも26%, 76%, 82%, 15%の相関関係を示した。
論文 参考訳(メタデータ) (2022-01-23T14:40:42Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。