論文の概要: MUCOCO: Automated Consistency Testing of Code LLMs
- arxiv url: http://arxiv.org/abs/2604.19086v1
- Date: Tue, 21 Apr 2026 04:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.624942
- Title: MUCOCO: Automated Consistency Testing of Code LLMs
- Title(参考訳): MUCOCO: コードLLMの自動一貫性テスト
- Authors: Chua Jin Chou, Khant That Lwin, Ezekiel Soremekun,
- Abstract要約: コードLLMにおける不整合挙動を明らかにするために,MUCOCOと呼ばれる自動整合性テスト手法を提案する。
MUCOCOはそのプログラムを意味論的に等価なプログラム(別名ミュータント)に変換し、ミュータントと元のプログラムとの矛盾を検出する。
その結果,MUCOCOは不整合の露呈に有効であり,最も近い基準線よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Code LLMs often portray inconsistent program behaviors. Developers typically employ benchmarks to assess Code LLMs, but most benchmarks are hand-crafted, static and do not target consistency property. In this work, we pose the scientific question: how can we automatically discover inconsistent program behaviors in Code LLMs? To address this challenge, we propose an automated consistency testing method, called MUCOCO, which employs semantic-preserving mutation analysis to expose inconsistent behaviors in code LLMs. Given a coding query, MUCOCO automatically transforms its program into semantically equivalent programs (aka mutants) and detects inconsistencies between the mutants and the original program (e.g., different output or test failure). We evaluate MUCOCO using four (4) coding tasks and seven (7) LLMs. Results show that MUCOCO is effective in exposing inconsistency and outperforms the closest baseline (TURBULENCE). About one in seven (15%) inputs generated by MUCOCO exposed inconsistencies. Our work motivates the need to test Code LLMs for consistency property
- Abstract(参考訳): コードLLMは、しばしば一貫性のないプログラムの振る舞いを描写する。
開発者は通常、Code LLMを評価するためにベンチマークを使用するが、ほとんどのベンチマークは手作りで静的であり、一貫性を目標としない。
この研究において、我々は科学的疑問を提起する: Code LLMにおける一貫性のないプログラムの振る舞いを自動的に発見するにはどうすればいいのか?
この課題に対処するため, MUCOCOと呼ばれる自動整合性検査手法を提案し, 意味保存突然変異解析を用いて, コードLLMにおける不整合挙動を明らかにする。
コードクエリが与えられた後、MUCOCOはプログラムを意味論的に等価なプログラム(別名ミュータント)に自動的に変換し、ミュータントと元のプログラム(例えば出力やテストの失敗)の不整合を検出する。
4つの4つのコーディングタスクと7つの (7) LLMを用いてMUCOCOを評価する。
その結果,MUCOCOは不整合の露呈に有効であり,最も近いベースライン(TURBULENCE)よりも優れていた。
MUCOCOが生成した7分の1(15%)の入力が矛盾を露呈した。
私たちの作業は、一貫性のあるプロパティのためにCode LLMをテストする必要性を動機付けます。
関連論文リスト
- LLMLOOP: Improving LLM-Generated Code and Tests through Automated Iterative Feedback Loops [4.056039458255759]
大きな言語モデル(LLM)は、ソースコードの生成において顕著なパフォーマンスを示している。
しかし、生成されたコードは、しばしばコンパイルエラーや間違ったコードのような問題を起こします。
本稿では,ソースコードとテストケースの両方の洗練を自動化するフレームワークであるLLMLOOPについて述べる。
論文 参考訳(メタデータ) (2026-03-24T18:01:14Z) - Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility [36.41073880422337]
RoundTripCodeEval(RTCE)は、4つの異なるコード実行推論タスクからなる包括的なベンチマークである。
ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。
RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。
論文 参考訳(メタデータ) (2026-01-19T21:09:48Z) - CodeJudgeBench: Benchmarking LLM-as-a-Judge for Coding Tasks [63.562924932512765]
LLM(Large Language Models)は、様々なコーディングタスクにおいて最先端の言語モデルである。
LLMは、他のモデルによって生成された応答の品質を評価し、比較する裁判官としても機能する。
論文 参考訳(メタデータ) (2025-07-14T17:56:29Z) - How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。
コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。
本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-06T05:59:29Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。