論文の概要: Beyond Surface Similarity: Evaluating LLM-Based Test Refactorings with Structural and Semantic Awareness
- arxiv url: http://arxiv.org/abs/2506.06767v1
- Date: Sat, 07 Jun 2025 11:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.472055
- Title: Beyond Surface Similarity: Evaluating LLM-Based Test Refactorings with Structural and Semantic Awareness
- Title(参考訳): 表面類似性を超えて:構造的および意味的認識によるLCMベースのテストリファクタリングの評価
- Authors: Wendkûuni C. Ouédraogo, Yinghua Li, Xueqi Dang, Xin Zhou, Anil Koyuncu, Jacques Klein, David Lo, Tegawendé F. Bissyandé,
- Abstract要約: CTSESは、CodeBLEU、METEOR、ROUGE-Lを統合した複合計量であり、振る舞い、語彙的品質、構造的アライメントのバランスをとる。
我々の結果は、CTSESは既存のメトリクスよりも、開発者の期待と人間の直感に合わせた、より忠実で解釈可能な評価を得られることを示しています。
- 参考スコア(独自算出の注目度): 13.258954013620885
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly employed to automatically refactor unit tests, aiming to enhance readability, naming, and structural clarity while preserving functional behavior. However, evaluating such refactorings remains challenging: traditional metrics like CodeBLEU are overly sensitive to renaming and structural edits, whereas embedding-based similarities capture semantics but ignore readability and modularity. We introduce CTSES, a composite metric that integrates CodeBLEU, METEOR, and ROUGE-L to balance behavior preservation, lexical quality, and structural alignment. CTSES is evaluated on over 5,000 test suites automatically refactored by GPT-4o and Mistral-Large-2407, using Chain-of-Thought prompting, across two established Java benchmarks: Defects4J and SF110. Our results show that CTSES yields more faithful and interpretable assessments, better aligned with developer expectations and human intuition than existing metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、機能的振舞いを保ちながら可読性、命名、構造的明確性を高めることを目的として、ユニットテストを自動リファクタリングするためにますます採用されている。
CodeBLEUのような従来のメトリクスはリネームや構造的な編集に過度に敏感だが、埋め込みベースの類似性はセマンティクスをキャプチャするが、可読性とモジュール性は無視する。
CodeBLEU, METEOR, ROUGE-Lを統合した複合計量 CTSES を導入し, 挙動保存, 語彙品質, 構造アライメントのバランスをとる。
CTSESは、GPT-4oとMistral-Large-2407によって自動リファクタリングされた5,000以上のテストスイートで評価され、Chain-of-Thoughtプロンプトを使用して、2つの確立されたJavaベンチマークであるDefects4JとSF110で評価されている。
我々の結果は、CTSESは既存のメトリクスよりも、開発者の期待と人間の直感に合わせた、より忠実で解釈可能な評価を得られることを示しています。
関連論文リスト
- Mind the Gap: A Readability-Aware Metric for Test Code Complexity [13.258954013620885]
単体テストに適したテスト意識認知複雑度尺度であるCCTRを紹介する。
EvoSuite, GPT-4o, Mistral Large-1024が生成した15,750のテストスイートをDefects4JおよびSF110から350クラスにわたって評価した。
論文 参考訳(メタデータ) (2025-06-07T11:16:13Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。