論文の概要: CIDRe: A Reference-Free Multi-Aspect Criterion for Code Comment Quality Measurement
- arxiv url: http://arxiv.org/abs/2505.19757v1
- Date: Mon, 26 May 2025 09:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.333654
- Title: CIDRe: A Reference-Free Multi-Aspect Criterion for Code Comment Quality Measurement
- Title(参考訳): CIDRe:コードコメント品質測定のための基準フリーマルチアスペクト基準
- Authors: Maria Dziuba, Valentin Malykh,
- Abstract要約: 本稿では,言語に依存しない参照のない品質基準であるCIDReを提案する。
実験では、CIDReが既存のメトリクスよりも優れていることを示し、クロスエントロピー評価の改善を実現している。
フィルタコメントに適用した場合、CIDReフィルタデータに微調整されたモデルでは、GPT-4o-miniアセスメントにおいて統計的に有意な品質向上を示す。
- 参考スコア(独自算出の注目度): 4.996220925315664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective generation of structured code comments requires robust quality metrics for dataset curation, yet existing approaches (SIDE, MIDQ, STASIS) suffer from limited code-comment analysis. We propose CIDRe, a language-agnostic reference-free quality criterion combining four synergistic aspects: (1) relevance (code-comment semantic alignment), (2) informativeness (functional coverage), (3) completeness (presence of all structure sections), and (4) description length (detail sufficiency). We validate our criterion on a manually annotated dataset. Experiments demonstrate CIDRe's superiority over existing metrics, achieving improvement in cross-entropy evaluation. When applied to filter comments, the models finetuned on CIDRe-filtered data show statistically significant quality gains in GPT-4o-mini assessments.
- Abstract(参考訳): 構造化されたコードコメントを効果的に生成するには、データセットのキュレーションのための堅牢な品質指標が必要ですが、既存のアプローチ(SIDE、MIDQ、STASIS)は、限定的なコード圧縮分析に悩まされます。
CIDReは,(1)関連性(コード・コンパートメントのセマンティックアライメント),(2)情報性(機能カバレッジ),(3)完全性(構造部分の完全性),(4)記述長(詳細充足性)の4つの相乗的側面を組み合わせた言語に依存しない品質基準である。
手動で注釈付きデータセットで評価する。
実験では、CIDReが既存のメトリクスよりも優れていることを示し、クロスエントロピー評価の改善を実現している。
フィルタコメントに適用した場合、CIDReフィルタデータに微調整されたモデルでは、GPT-4o-miniアセスメントにおいて統計的に有意な品質向上を示す。
関連論文リスト
- Harnessing Large Language Models for Curated Code Reviews [2.5944208050492183]
コードレビューでは、構造化され、関連するコメントを生成することは、コードの問題を識別し、正確なコード変更を容易にするために不可欠である。
既存のコードレビューデータセットは、しばしば騒々しく、未解決であり、AIモデルの学習可能性に制限を課している。
本稿では,最大規模の公開コードレビューデータセットの品質向上を目的としたキュレーションパイプラインを提案する。
論文 参考訳(メタデータ) (2025-02-05T18:15:09Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - FFCI: A Framework for Interpretable Automatic Evaluation of
Summarization [43.375797352517765]
本稿では,精細な要約評価のためのフレームワークであるFFCIを提案する。
我々は、焦点、カバレッジ、相互一貫性のための新しいデータセットを構築した。
開発したメトリクスを2つのデータセットにわたる広範囲の要約モデルの評価に適用する。
論文 参考訳(メタデータ) (2020-11-27T10:57:18Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。