論文の概要: Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations?
- arxiv url: http://arxiv.org/abs/2505.10443v1
- Date: Thu, 15 May 2025 16:04:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.400788
- Title: Are Large Language Models Robust in Understanding Code Against Semantics-Preserving Mutations?
- Title(参考訳): 意味論的変異に対するコード理解において,大規模言語モデルはロバストか?
- Authors: Pedro Orvalho, Marta Kwiatkowska,
- Abstract要約: 最大8Bパラメータを持つ最先端のLarge Language Model (LLMs) がPythonプログラムを推論できるのか、それとも単純に推測できるのかを評価する。
変数のリネーム、比較式のミラー化、if-elseブランチのスワップ、ループの while への変換、ループアンロールの5つのコード変異を適用します。
Llama3.2のような一部のLLMは、最大61%のケースにおいて、欠陥のある推論に基づいて正しい予測を生成する。
- 参考スコア(独自算出の注目度): 18.52519530244078
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding the reasoning and robustness of Large Language Models (LLMs) is critical for their reliable use in programming tasks. While recent studies have assessed LLMs' ability to predict program outputs, most focus solely on the accuracy of those predictions, without evaluating the reasoning behind them. Moreover, it has been observed on mathematical reasoning tasks that LLMs can arrive at correct answers through flawed logic, raising concerns about similar issues in code understanding. In this work, we evaluate whether state-of-the-art LLMs with up to 8B parameters can reason about Python programs or are simply guessing. We apply five semantics-preserving code mutations: renaming variables, mirroring comparison expressions, swapping if-else branches, converting for loops to while, and loop unrolling. These mutations maintain program semantics while altering its syntax. We evaluated six LLMs and performed a human expert analysis using LiveCodeBench to assess whether the correct predictions are based on sound reasoning. We also evaluated prediction stability across different code mutations on LiveCodeBench and CruxEval. Our findings show that some LLMs, such as Llama3.2, produce correct predictions based on flawed reasoning in up to 61% of cases. Furthermore, LLMs often change predictions in response to our code mutations, indicating limited robustness in their semantic understanding.
- Abstract(参考訳): LLM(Large Language Models)の推論と堅牢性を理解することは、プログラミングタスクにおける信頼性の高い使用において重要である。
近年の研究では、LCMがプログラムの出力を予測する能力を評価しているが、ほとんどの場合、その背景にある推論を評価せずに、これらの予測の正確性にのみ焦点をあてている。
さらに、LLMが欠陥論理を通して正しい解に到達できる数学的推論タスクが観察され、コード理解における同様の問題に対する懸念が提起されている。
本研究では,Python プログラムについて,最大 8B のパラメータを持つ最先端 LLM が推論可能か,あるいは単純に推測可能であるかを評価する。
変数のリネーム、比較式のミラー化、if-elseブランチのスワップ、ループの while への変換、ループアンロールの5つのコード変異を適用します。
これらの変異は、構文を変更しながらプログラムのセマンティクスを維持している。
我々は6つのLCMを評価し、LiveCodeBenchを用いて人間の専門家による分析を行い、正しい予測が音響推論に基づいているかどうかを検証した。
また,LiveCodeBench と CruxEval のコード変異に対する予測安定性を評価した。
以上の結果から,Llama3.2などのLSMでは,最大61%の症例において,欠陥推論に基づく正しい予測が得られた。
さらに、LLMはコード変異に対応して予測を変更することが多く、意味的理解の堅牢性に制限があることを示している。
関連論文リスト
- How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。
コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。
本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-06T05:59:29Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Gender Bias in Large Language Models via Chain-of-Thought
Prompting [87.30837365008931]
CoT(Chain-of-Thought)プロンプトを備えた大規模言語モデル(LLM)は、計算不能なタスクでも正確なインクリメンタルな予測を行うことができる。
本研究では,LLMのステップバイステップ予測が性差に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-01-28T06:50:10Z) - Mutation-based Consistency Testing for Evaluating the Code Understanding
Capability of LLMs [5.549095839198671]
大きな言語モデル(LLM)は、自然言語とプログラミング言語の両方を処理する際、顕著な能力を示している。
本稿では,LLMのコード理解性能を評価する新しい手法を提案し,特にコードと記述の微妙な差異に着目した。
演算子置換やステートメント削除など,さまざまなタイプのコード突然変異を適用して,一貫性のないコード記述ペアを生成する。
我々は,現在最先端のコード生成ベンチマークであるHumanEval-Xを用いて,GPT-3.5とGPT-4の2つのLLMのケーススタディを行う。
論文 参考訳(メタデータ) (2024-01-11T14:27:43Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。