論文の概要: Beyond Surface Similarity: Evaluating LLM-Based Test Refactorings with Structural and Semantic Awareness
- arxiv url: http://arxiv.org/abs/2506.06767v2
- Date: Sat, 18 Oct 2025 17:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.380583
- Title: Beyond Surface Similarity: Evaluating LLM-Based Test Refactorings with Structural and Semantic Awareness
- Title(参考訳): 表面類似性を超えて:構造的および意味的認識によるLCMベースのテストリファクタリングの評価
- Authors: Wendkûuni C. Ouédraogo, Yinghua Li, Xueqi Dang, Xin Zhou, Anil Koyuncu, Jacques Klein, David Lo, Tegawendé F. Bissyandé,
- Abstract要約: 大きな言語モデル(LLM)は、振る舞いを保ちながら可読性と構造を改善するためにますます使われています。
我々は,LCMの人為的アライメント評価に向けた第一歩として,CTSESを提案する。
CTSESは、CodeBLEU、METEOR、ROUGE-Lを合成スコアに結合し、意味論、語彙的明瞭さ、構造的アライメントのバランスをとる。
- 参考スコア(独自算出の注目度): 15.677544288705883
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used to refactor unit tests, improving readability and structure while preserving behavior. Evaluating such refactorings, however, remains difficult: metrics like CodeBLEU penalize beneficial renamings and edits, while semantic similarities overlook readability and modularity. We propose CTSES, a first step toward human-aligned evaluation of refactored tests. CTSES combines CodeBLEU, METEOR, and ROUGE-L into a composite score that balances semantics, lexical clarity, and structural alignment. Evaluated on 5,000+ refactorings from Defects4J and SF110 (GPT-4o and Mistral-Large), CTSES reduces false negatives and provides more interpretable signals than individual metrics. Our emerging results illustrate that CTSES offers a proof-of-concept for composite approaches, showing their promise in bridging automated metrics and developer judgments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユニットテストをリファクタリングし、振る舞いを保ちながら可読性と構造を改善するために、ますます使われています。
CodeBLEUのようなメトリクスは有益なリネームや編集を罰し、セマンティックな類似性は可読性とモジュール性を見渡せる。
CTSESは、リファクタリングされたテストの人為的アライメント評価に向けた第一歩である。
CTSESは、CodeBLEU、METEOR、ROUGE-Lと組み合わせて、意味論、語彙的明快さ、構造的アライメントのバランスをとる。
Defects4J と SF110 (GPT-4o と Mistral-Large) から5,000以上のリファクタリングを評価することで、CTSES は偽陰性を低減し、個々のメトリクスよりも解釈可能な信号を提供する。
我々の新たな成果は、CTSESが複合アプローチのコンセプト実証を提供し、自動メトリクスと開発者の判断をブリッジする上での彼らの約束を示していることを示している。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Measuring how changes in code readability attributes affect code quality evaluation by Large Language Models [2.3204178451683264]
コード可読性はコード品質の主要な側面の1つであり、識別子名、コメント、コード構造、標準への準拠といった様々な特性に影響を受けています。
本稿では,Large Language Models (LLMs) を用いて,その可読性に関連するコード品質特性を標準化され再現可能で一貫した方法で評価する。
論文 参考訳(メタデータ) (2025-07-05T11:08:03Z) - ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities [14.13459302125202]
大きな言語モデル(LLM)の一貫性を評価することは、信頼性を確保するために不可欠である。
従来の自己整合性メソッドは、自然言語の微妙な意味的変化や、コードや方程式の関数的シフトを見逃すことが多い。
可逆変換のシーケンスによる一貫性の測定を目的とした木に基づく評価フレームワークであるConsistencyCheckerを提案する。
論文 参考訳(メタデータ) (2025-06-14T07:18:33Z) - Mind the Gap: A Readability-Aware Metric for Test Code Complexity [13.258954013620885]
単体テストに適したテスト意識認知複雑度尺度であるCCTRを紹介する。
EvoSuite, GPT-4o, Mistral Large-1024が生成した15,750のテストスイートをDefects4JおよびSF110から350クラスにわたって評価した。
論文 参考訳(メタデータ) (2025-06-07T11:16:13Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - EquiBench: Benchmarking Large Language Models' Understanding of Program Semantics via Equivalence Checking [55.81461218284736]
EquiBenchは、大規模言語モデル(LLM)を評価するための新しいベンチマークである。
2つのプログラムが全ての可能な入力に対して同一の出力を生成するかどうかを決定する。
19の最先端LCMを評価し、最高の精度は63.8%と76.2%であり、これは50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.040736633675136]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。