Fugu-MT 論文翻訳(概要): Simple and Effective Baselines for Code Summarisation Evaluation

論文の概要: Simple and Effective Baselines for Code Summarisation Evaluation

arxiv url: http://arxiv.org/abs/2505.19392v1
Date: Mon, 26 May 2025 01:16:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.090093
Title: Simple and Effective Baselines for Code Summarisation Evaluation
Title（参考訳）: コード要約評価のためのシンプルで効果的なベースライン
Authors: Jade Robinson, Jonathan K. Kummerfeld,
Abstract要約: 簡単なベースラインを導入し、LCMに概要に総合的なスコアを与える。 n-gramや埋め込みベースのベースラインとは異なり、私たちのアプローチではスコアを与える際にコードを考慮できます。
参考スコア（独自算出の注目度）: 12.640225615568749
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code documentation is useful, but writing it is time-consuming. Different techniques for generating code summaries have emerged, but comparing them is difficult because human evaluation is expensive and automatic metrics are unreliable. In this paper, we introduce a simple new baseline in which we ask an LLM to give an overall score to a summary. Unlike n-gram and embedding-based baselines, our approach is able to consider the code when giving a score. This allows us to also make a variant that does not consider the reference summary at all, which could be used for other tasks, e.g., to evaluate the quality of documentation in code bases. We find that our method is as good or better than prior metrics, though we recommend using it in conjunction with embedding-based methods to avoid the risk of LLM-specific bias.
Abstract（参考訳）: コードドキュメンテーションは役に立つが、書くのに時間がかかる。コード要約を生成する異なるテクニックが登場したが、人間の評価が高価で自動メトリクスが信頼できないため、それらを比較することは難しい。本稿では,LLMに対して,要約に総合的なスコアを与えるためのシンプルなベースラインを提案する。 n-gramや埋め込みベースのベースラインとは異なり、私たちのアプローチではスコアを与える際にコードを考慮できます。これはまた、コードベースのドキュメントの品質を評価するために、他のタスクに使用できる。提案手法は, 従来の測定値と同等あるいは同等であることがわかったが, LLM固有のバイアスのリスクを回避するため, 埋め込み型手法と併用することを推奨している。

関連論文リスト

MATCH: Task-Driven Code Evaluation through Contrastive Learning [11.156827035309407]
GitHub Copilotは、GitHubのコードの46%を生成すると見積もっている。単体テストのような従来の評価手法は、しばしば計算不可能でコストがかかる。本稿では,新しい参照フリーメトリックであるMATCHを紹介する。
論文参考訳（メタデータ） (2025-10-27T09:51:49Z)
On the Effectiveness of LLM-as-a-judge for Code Generation and Summarization [54.965787768076254]
大規模言語モデルは、最近、Q&Aのような複雑な自然言語処理タスクの裁判官として活用されている。コード生成とコード要約という2つのコード関連タスクに対するLLMs-as-a-judgeの有効性について検討した。
論文参考訳（メタデータ） (2025-07-22T13:40:26Z)
ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [49.65993318863458]
ImpliRetは、推論の課題をドキュメントサイド処理にシフトするベンチマークである。我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文参考訳（メタデータ） (2025-06-17T11:08:29Z)
Rubric Is All You Need: Enhancing LLM-based Code Evaluation With Question-Specific Rubrics [1.3707925738322797]
本稿では,専門家評価に対する評価厳密度を定量化するLeniencyと呼ばれる新しい指標を提案する。包括的分析により,学習環境におけるコードの論理的評価が著しく向上することが確認された。
論文参考訳（メタデータ） (2025-03-31T11:59:43Z)
Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension [39.277408536940825]
コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
論文参考訳（メタデータ） (2024-11-30T01:49:25Z)
DOCE: Finding the Sweet Spot for Execution-Based Code Generation [69.5305729627198]
本稿では,候補生成,$n$-best再ランク,最小ベイズリスク(MBR)復号化,自己老化などを含む包括的フレームワークを提案する。本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
論文参考訳（メタデータ） (2024-08-25T07:10:36Z)
Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文参考訳（メタデータ） (2024-07-29T08:11:20Z)
FineSurE: Fine-grained Summarization Evaluation using LLMs [22.62504593575933]
FineSurEは,大規模言語モデル(LLM)を用いた要約タスクに適した,きめ細かい評価器である。また、忠実さに加えて完全性と簡潔さの基準を採用し、多次元評価を可能にしている。
論文参考訳（メタデータ） (2024-07-01T02:20:28Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文参考訳（メタデータ） (2024-02-16T15:48:33Z)
Not All Metrics Are Guilty: Improving NLG Evaluation by Diversifying References [123.39034752499076]
Div-Refは、参照数を増やして評価ベンチマークを強化する方法である。本研究では,参照表現の多様化が自動評価と人的評価の相関性を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-05-24T11:53:29Z)
Evaluating the Factual Consistency of Large Language Models Through News Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文参考訳（メタデータ） (2022-11-15T18:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。