論文の概要: CODECRASH: Stress Testing LLM Reasoning under Structural and Semantic Perturbations
- arxiv url: http://arxiv.org/abs/2504.14119v1
- Date: Sat, 19 Apr 2025 00:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 05:03:53.576293
- Title: CODECRASH: Stress Testing LLM Reasoning under Structural and Semantic Perturbations
- Title(参考訳): CODECRASH: 構造的・意味的摂動下における応力試験LLM推論
- Authors: Man Ho Lam, Chaozheng Wang, Jen-tse Huang, Michael R. Lyu,
- Abstract要約: CodeCrashは、コード構造とテキストの乱れによる堅牢性を評価する統一ベンチマークである。
直接および連鎖推定を用いた17大言語モデル(LLM)の評価を行った。
構造ノイズ下でのLSMの脆弱さと,自然言語の手がかりに依存していることが本研究で明らかになった。
- 参考スコア(独自算出の注目度): 36.60702578561009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have recently showcased strong capabilities in code-related tasks, yet their robustness in code comprehension and reasoning remains underexplored. In this paper, we present CodeCrash, a unified benchmark that evaluates LLM robustness under code structural and textual distraction perturbations, applied to two established benchmarks -- CRUXEval and LiveCodeBench -- across both input and output prediction tasks. We evaluate seventeen LLMs using direct and Chain-of-Thought inference to systematically analyze their robustness, identify primary reasons for performance degradation, and highlight failure modes. Our findings reveal the fragility of LLMs under structural noise and the inherent reliance on natural language cues, highlighting critical robustness issues of LLMs in code execution and understanding. Additionally, we examine three Large Reasoning Models (LRMs) and discover the severe vulnerability of self-reflective reasoning mechanisms that lead to reasoning collapse. CodeCrash provides a principled framework for stress-testing LLMs in code understanding, offering actionable directions for future evaluation and benchmarking. The code of CodeCrash and the robustness leaderboard are publicly available at https://donaldlamnl.github.io/CodeCrash/ .
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近、コード関連のタスクにおいて強力な機能を示したが、コード理解と推論の堅牢性はまだ未熟である。
本稿では,コード構造とテキストの乱れによるLCMの堅牢性を評価する統一ベンチマークであるCodeCrashを,入力と出力の両方の予測タスクにわたって,CRUXEvalとLiveCodeBenchという2つの確立されたベンチマークに適用する。
直接および連鎖推論を用いて17個のLCMを評価し,その頑健さを体系的に解析し,性能劣化の原因を同定し,故障モードを強調する。
本研究は,LLMの構造的ノイズ下での脆弱さと,LLMのコード実行と理解における重要ロバスト性の問題を明らかにすることを目的としている。
さらに,3つのLarge Reasoning Model (LRMs) について検討し,推論の崩壊につながる自己反射的推論機構の深刻な脆弱性を明らかにする。
CodeCrashは、コード理解におけるストレステスト LLM の原則的なフレームワークを提供し、将来の評価とベンチマークのための実行可能な方向を提供する。
CodeCrashのコードとロバストネスのリーダーボードはhttps://donaldlamnl.github.io/CodeCrash/で公開されている。
関連論文リスト
- Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - CRANE: Reasoning with constrained LLM generation [5.971462597321995]
制約付きデコードアルゴリズムであるCRANEを提案し,制約付き生成の正しさと制約なし生成の柔軟性のバランスをとる。
CRANEは最先端の制約付き復号化戦略と標準の制約なし復号化戦略の両方を大きく上回っている。
論文 参考訳(メタデータ) (2025-02-13T08:23:42Z) - What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。
これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。
以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-11T04:52:41Z) - OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models [68.17018458283651]
本研究は,LLMのチェーン・オブ・思想能力のオフライン評価に焦点をあてる。
我々は知識グラフ(例えばWikidata5m)を使って、生成された思考の連鎖に対するフィードバックを提供する。
提案手法に基づいてLCMを最適化する方法を示す。
論文 参考訳(メタデータ) (2024-10-31T07:48:44Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。
3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。
そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z) - Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。
コード推論は、コードLLMの最も重要な能力の1つである。
本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文 参考訳(メタデータ) (2024-03-25T05:37:16Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Benchmarking and Explaining Large Language Model-based Code Generation:
A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。
本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。
我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文 参考訳(メタデータ) (2023-10-10T14:56:26Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。