Fugu-MT 論文翻訳(概要): evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments

論文の概要: evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments

arxiv url: http://arxiv.org/abs/2507.20774v1
Date: Mon, 28 Jul 2025 12:37:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-29 16:23:58.114655
Title: evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments
Title（参考訳）: evalSmarT: スマートコントラクト生成コメントを評価するLLMベースのフレームワーク
Authors: Fatou Ndiaye Mbodji,
Abstract要約: 大規模な言語モデル(LLM)を評価対象として利用するモジュール型フレームワークである texttevalSmarT を提案する。コメント生成ツールのベンチマークや,最も情報に富んだアウトプットの選択において,その応用を実証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Smart contract comment generation has gained traction as a means to improve code comprehension and maintainability in blockchain systems. However, evaluating the quality of generated comments remains a challenge. Traditional metrics such as BLEU and ROUGE fail to capture domain-specific nuances, while human evaluation is costly and unscalable. In this paper, we present \texttt{evalSmarT}, a modular and extensible framework that leverages large language models (LLMs) as evaluators. The system supports over 400 evaluator configurations by combining approximately 40 LLMs with 10 prompting strategies. We demonstrate its application in benchmarking comment generation tools and selecting the most informative outputs. Our results show that prompt design significantly impacts alignment with human judgment, and that LLM-based evaluation offers a scalable and semantically rich alternative to existing methods.
Abstract（参考訳）: ブロックチェーンシステムのコードの理解と保守性を改善する手段として、スマートコントラクトコメント生成が注目を集めている。しかし、生成したコメントの品質を評価することは依然として困難である。 BLEUやROUGEのような従来のメトリクスはドメイン固有のニュアンスをキャプチャできない。本稿では,大規模言語モデル (LLM) を評価対象として活用するモジュール型拡張可能なフレームワークである \texttt{evalSmarT} を提案する。このシステムはおよそ40個のLDMと10個のプロンプト戦略を組み合わせることで400以上の評価器構成をサポートする。コメント生成ツールのベンチマークや,最も情報に富んだアウトプットの選択において,その応用を実証する。以上の結果から, 素早い設計は人間の判断に大きく影響し, LLMに基づく評価は, 既存の手法に代えて, スケーラブルでセマンティックにリッチな代替手段を提供することを示した。

関連論文リスト

Evaluating Generated Commit Messages with Large Language Models [10.048749643042491]
コミットメッセージは、コード変更の文書化や説明に役立つため、ソフトウェア開発において不可欠である。本研究では,大規模言語モデル (LLM) がメッセージ品質の自動評価手段としての可能性について検討する。
論文参考訳（メタデータ） (2025-07-15T01:50:20Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。 LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。 CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文参考訳（メタデータ） (2024-12-02T09:56:18Z)
RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale [3.378738346115004]
大規模言語モデル (LLM) を評価するベンチマーク RES-Q を開発した。我々は,Qurrent OS上に構築されたリポジトリ編集システムにおける言語エージェントとして,最先端のLLMを評価した。
論文参考訳（メタデータ） (2024-06-24T17:08:17Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Can Large Language Models be Trusted for Evaluation? Scalable Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。フレームワークのコードをGitHubで公開しています。
論文参考訳（メタデータ） (2024-01-30T07:03:32Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。