Fugu-MT 論文翻訳(概要): CODECRASH: Stress Testing LLM Reasoning under Structural and Semantic Perturbations

論文の概要: CODECRASH: Stress Testing LLM Reasoning under Structural and Semantic Perturbations

arxiv url: http://arxiv.org/abs/2504.14119v1
Date: Sat, 19 Apr 2025 00:40:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-30 05:03:53.576293
Title: CODECRASH: Stress Testing LLM Reasoning under Structural and Semantic Perturbations
Title（参考訳）: CODECRASH: 構造的・意味的摂動下における応力試験LLM推論
Authors: Man Ho Lam, Chaozheng Wang, Jen-tse Huang, Michael R. Lyu,
Abstract要約: CodeCrashは、コード構造とテキストの乱れによる堅牢性を評価する統一ベンチマークである。直接および連鎖推定を用いた17大言語モデル(LLM)の評価を行った。構造ノイズ下でのLSMの脆弱さと,自然言語の手がかりに依存していることが本研究で明らかになった。
参考スコア（独自算出の注目度）: 36.60702578561009
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have recently showcased strong capabilities in code-related tasks, yet their robustness in code comprehension and reasoning remains underexplored. In this paper, we present CodeCrash, a unified benchmark that evaluates LLM robustness under code structural and textual distraction perturbations, applied to two established benchmarks -- CRUXEval and LiveCodeBench -- across both input and output prediction tasks. We evaluate seventeen LLMs using direct and Chain-of-Thought inference to systematically analyze their robustness, identify primary reasons for performance degradation, and highlight failure modes. Our findings reveal the fragility of LLMs under structural noise and the inherent reliance on natural language cues, highlighting critical robustness issues of LLMs in code execution and understanding. Additionally, we examine three Large Reasoning Models (LRMs) and discover the severe vulnerability of self-reflective reasoning mechanisms that lead to reasoning collapse. CodeCrash provides a principled framework for stress-testing LLMs in code understanding, offering actionable directions for future evaluation and benchmarking. The code of CodeCrash and the robustness leaderboard are publicly available at https://donaldlamnl.github.io/CodeCrash/ .
Abstract（参考訳）: 大規模言語モデル(LLM)は、最近、コード関連のタスクにおいて強力な機能を示したが、コード理解と推論の堅牢性はまだ未熟である。本稿では,コード構造とテキストの乱れによるLCMの堅牢性を評価する統一ベンチマークであるCodeCrashを,入力と出力の両方の予測タスクにわたって,CRUXEvalとLiveCodeBenchという2つの確立されたベンチマークに適用する。直接および連鎖推論を用いて17個のLCMを評価し,その頑健さを体系的に解析し,性能劣化の原因を同定し,故障モードを強調する。本研究は,LLMの構造的ノイズ下での脆弱さと,LLMのコード実行と理解における重要ロバスト性の問題を明らかにすることを目的としている。さらに,3つのLarge Reasoning Model (LRMs) について検討し,推論の崩壊につながる自己反射的推論機構の深刻な脆弱性を明らかにする。 CodeCrashは、コード理解におけるストレステスト LLM の原則的なフレームワークを提供し、将来の評価とベンチマークのための実行可能な方向を提供する。 CodeCrashのコードとロバストネスのリーダーボードはhttps://donaldlamnl.github.io/CodeCrash/で公開されている。

関連論文リスト

MOCHA: Are Code Language Models Robust Against Multi-Turn Malicious Coding Prompts? [12.213189431386478]
コード分解攻撃では、悪意のあるコーディングタスクが、安全フィルタを避けるために、一見良質なサブタスクに分解される。システム評価を容易にするために,単一ターンおよび複数ターンの悪意のあるプロンプトに対して,LLMの堅牢性を評価するために設計された大規模ベンチマークであるベンチマークネームを導入する。 MOCHAの微調整は、符号化能力を維持しながら拒絶率を改善し、重要なことは、外部の敵データセットの堅牢性を、追加の監督なしに最大32.4%の拒絶率で向上させる。
論文参考訳（メタデータ） (2025-07-25T18:11:10Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
When LLMs Copy to Think: Uncovering Copy-Guided Attacks in Reasoning LLMs [30.532439965854767]
大規模言語モデル(LLM)は、脆弱性検出やコード理解といったタスクを可能にする自動コード解析に不可欠なものになっている。本稿では,CGA(Copy-Guided Attacks)と呼ばれる,新たなプロンプトベースの攻撃のクラスを特定し,検討する。 CGAは、コード解析タスクにおいて、無限ループ、早期終了、偽の拒絶、意味的歪みを確実に誘導することを示す。
論文参考訳（メタデータ） (2025-07-22T17:21:36Z)
Chain-of-Code Collapse: Reasoning Failures in LLMs via Adversarial Prompting in Code Generation [0.3495246564946556]
大規模言語モデル(LLM)は複雑な推論を必要とするタスクにおいて顕著な成功を収めた。これらのモデルは本当に理由があるのか、それとも浅い統計パターンを利用するだけなのか? ここでは、意味論的に忠実だが逆向きに構造化された急激な摂動のスイートを導入することで、LCMの推論の堅牢性について検討する。
論文参考訳（メタデータ） (2025-06-08T02:43:46Z)
ICPC-Eval: Probing the Frontiers of LLM Reasoning with Competitive Programming Contests [85.72404266850982]
推論のフロンティアを探索するために設計されたトップレベルの競合コーディングベンチマークである textbfICPC-Eval を提案する。 ICPC-Evalは、世界中の各地域で開催されている11のICPCコンテストから、118の慎重にキュレートされた問題を含んでいる。結果は、複雑な推論能力を評価する上で重要な課題を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-05T11:20:37Z)
Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文参考訳（メタデータ） (2025-05-28T17:57:47Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
CRANE: Reasoning with constrained LLM generation [5.971462597321995]
制約付きデコードアルゴリズムであるCRANEを提案し,制約付き生成の正しさと制約なし生成の柔軟性のバランスをとる。 CRANEは最先端の制約付き復号化戦略と標準の制約なし復号化戦略の両方を大きく上回っている。
論文参考訳（メタデータ） (2025-02-13T08:23:42Z)
What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文参考訳（メタデータ） (2024-12-11T04:52:41Z)
OCEAN: Offline Chain-of-thought Evaluation and Alignment in Large Language Models [68.17018458283651]
本研究は,LLMのチェーン・オブ・思想能力のオフライン評価に焦点をあてる。我々は知識グラフ(例えばWikidata5m)を使って、生成された思考の連鎖に対するフィードバックを提供する。提案手法に基づいてLCMを最適化する方法を示す。
論文参考訳（メタデータ） (2024-10-31T07:48:44Z)
Understanding Defects in Generated Codes by Language Models [0.669087470775851]
本研究では,大規模言語モデルによって生成されたコードスニペットの367の欠陥を分類,解析する。エラーカテゴリは、LLMが頻繁に失敗する重要な領域を示し、目標とする改善の必要性を強調している。本稿では,スクラッチパッド・プロンプト・プログラム・オブ・ソート・プロンプト・チェーン・オブ・ソート・プロンプト・チェーン・オブ・ソート・プロンプト・ストラクテッド・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・オブ・ソート・プロンプト・プログラム・オブ・ソート・プロンプト・プログラム・オブ・オブ・ソート・プロンプト・プロンプト・アンド・ストラクテッド・オブ・フォーンティング(Structued Chain-of-Thought Prompting)の5つの迅速な技術技術
論文参考訳（メタデータ） (2024-08-23T21:10:09Z)
Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。 11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文参考訳（メタデータ） (2024-07-23T15:31:26Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。 GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文参考訳（メタデータ） (2024-06-16T17:26:44Z)
ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文参考訳（メタデータ） (2024-06-12T12:54:27Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。 i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文参考訳（メタデータ） (2024-01-17T18:13:07Z)
Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。 LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。 LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文参考訳（メタデータ） (2023-10-15T12:40:30Z)
Benchmarking and Explaining Large Language Model-based Code Generation: A Causality-Centric Approach [12.214585409361126]
大規模言語モデル(LLM)ベースのコード生成は複雑で強力なブラックボックスモデルである。本稿では,プロンプトと生成されたコードの因果グラフに基づく新しい表現を提案する。我々は,12以上の迅速な調整戦略で3つの人気のあるLCMを研究することで,我々のフレームワークが提供できる洞察について説明する。
論文参考訳（メタデータ） (2023-10-10T14:56:26Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。