論文の概要: evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments
- arxiv url: http://arxiv.org/abs/2507.20774v1
- Date: Mon, 28 Jul 2025 12:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.114655
- Title: evalSmarT: An LLM-Based Framework for Evaluating Smart Contract Generated Comments
- Title(参考訳): evalSmarT: スマートコントラクト生成コメントを評価するLLMベースのフレームワーク
- Authors: Fatou Ndiaye Mbodji,
- Abstract要約: 大規模な言語モデル(LLM)を評価対象として利用するモジュール型フレームワークである texttevalSmarT を提案する。
コメント生成ツールのベンチマークや,最も情報に富んだアウトプットの選択において,その応用を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Smart contract comment generation has gained traction as a means to improve code comprehension and maintainability in blockchain systems. However, evaluating the quality of generated comments remains a challenge. Traditional metrics such as BLEU and ROUGE fail to capture domain-specific nuances, while human evaluation is costly and unscalable. In this paper, we present \texttt{evalSmarT}, a modular and extensible framework that leverages large language models (LLMs) as evaluators. The system supports over 400 evaluator configurations by combining approximately 40 LLMs with 10 prompting strategies. We demonstrate its application in benchmarking comment generation tools and selecting the most informative outputs. Our results show that prompt design significantly impacts alignment with human judgment, and that LLM-based evaluation offers a scalable and semantically rich alternative to existing methods.
- Abstract(参考訳): ブロックチェーンシステムのコードの理解と保守性を改善する手段として、スマートコントラクトコメント生成が注目を集めている。
しかし、生成したコメントの品質を評価することは依然として困難である。
BLEUやROUGEのような従来のメトリクスはドメイン固有のニュアンスをキャプチャできない。
本稿では,大規模言語モデル (LLM) を評価対象として活用するモジュール型拡張可能なフレームワークである \texttt{evalSmarT} を提案する。
このシステムはおよそ40個のLDMと10個のプロンプト戦略を組み合わせることで400以上の評価器構成をサポートする。
コメント生成ツールのベンチマークや,最も情報に富んだアウトプットの選択において,その応用を実証する。
以上の結果から, 素早い設計は人間の判断に大きく影響し, LLMに基づく評価は, 既存の手法に代えて, スケーラブルでセマンティックにリッチな代替手段を提供することを示した。
関連論文リスト
- Can Large Language Models Serve as Evaluators for Code Summarization? [47.21347974031545]
LLM(Large Language Models)は、コード要約手法の効果的な評価手法である。
LLMはエージェントに、コードレビュアー、コード作者、コードエディタ、システムアナリストなどの様々な役割を演じるよう促す。
CoDERPEは、人間の評価と81.59%のスピアマン相関を達成し、既存のBERTScoreの基準を17.27%上回った。
論文 参考訳(メタデータ) (2024-12-02T09:56:18Z) - RES-Q: Evaluating Code-Editing Large Language Model Systems at the Repository Scale [3.378738346115004]
大規模言語モデル (LLM) を評価するベンチマーク RES-Q を開発した。
我々は,Qurrent OS上に構築されたリポジトリ編集システムにおける言語エージェントとして,最先端のLLMを評価した。
論文 参考訳(メタデータ) (2024-06-24T17:08:17Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。