論文の概要: Simple and Effective Baselines for Code Summarisation Evaluation
- arxiv url: http://arxiv.org/abs/2505.19392v1
- Date: Mon, 26 May 2025 01:16:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.090093
- Title: Simple and Effective Baselines for Code Summarisation Evaluation
- Title(参考訳): コード要約評価のためのシンプルで効果的なベースライン
- Authors: Jade Robinson, Jonathan K. Kummerfeld,
- Abstract要約: 簡単なベースラインを導入し、LCMに概要に総合的なスコアを与える。
n-gramや埋め込みベースのベースラインとは異なり、私たちのアプローチではスコアを与える際にコードを考慮できます。
- 参考スコア(独自算出の注目度): 12.640225615568749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code documentation is useful, but writing it is time-consuming. Different techniques for generating code summaries have emerged, but comparing them is difficult because human evaluation is expensive and automatic metrics are unreliable. In this paper, we introduce a simple new baseline in which we ask an LLM to give an overall score to a summary. Unlike n-gram and embedding-based baselines, our approach is able to consider the code when giving a score. This allows us to also make a variant that does not consider the reference summary at all, which could be used for other tasks, e.g., to evaluate the quality of documentation in code bases. We find that our method is as good or better than prior metrics, though we recommend using it in conjunction with embedding-based methods to avoid the risk of LLM-specific bias.
- Abstract(参考訳): コードドキュメンテーションは役に立つが、書くのに時間がかかる。
コード要約を生成する異なるテクニックが登場したが、人間の評価が高価で自動メトリクスが信頼できないため、それらを比較することは難しい。
本稿では,LLMに対して,要約に総合的なスコアを与えるためのシンプルなベースラインを提案する。
n-gramや埋め込みベースのベースラインとは異なり、私たちのアプローチではスコアを与える際にコードを考慮できます。
これはまた、コードベースのドキュメントの品質を評価するために、他のタスクに使用できる。
提案手法は, 従来の測定値と同等あるいは同等であることがわかったが, LLM固有のバイアスのリスクを回避するため, 埋め込み型手法と併用することを推奨している。
関連論文リスト
- Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension [39.277408536940825]
コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。
現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
論文 参考訳(メタデータ) (2024-11-30T01:49:25Z) - DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文 参考訳(メタデータ) (2024-08-25T07:10:36Z) - Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。
我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文 参考訳(メタデータ) (2024-07-29T08:11:20Z) - FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。
また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文 参考訳(メタデータ) (2024-07-01T02:20:28Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。
本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-05-24T11:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。