論文の概要: How Robustly do LLMs Understand Execution Semantics?
- arxiv url: http://arxiv.org/abs/2604.16320v1
- Date: Tue, 24 Feb 2026 19:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.882157
- Title: How Robustly do LLMs Understand Execution Semantics?
- Title(参考訳): LLMは実行セマンティックスにどう耐えられるか?
- Authors: Claudio Spiess, Prem Devanbu, Earl T. Barr,
- Abstract要約: LLMは驚くべき推論能力を示しているが、それらが内的世界モデルを利用するのか、高度なパターンマッチングに依存しているのかは未解決のままである。
我々は,標準的なプログラム出力予測タスクを用いて,LLMをそのコード理解の堅牢性のレンズを通して研究する。
私たちの発見は、すべてのモデルがコードを理解する方法の限界を示し、コードモデルを評価するために摂動を使うことの価値を確立します。
- 参考スコア(独自算出の注目度): 3.2717315277334706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs demonstrate remarkable reasoning capabilities, yet whether they utilize internal world models or rely on sophisticated pattern matching remains open. We study LLMs through the lens of robustness of their code understanding using a standard program-output prediction task. Our results reveal a stark divergence in model behavior: while open-source reasoning models (DeepSeek-R1 family) maintain stable, albeit somewhat lower accuracies (38% to 67%) under code transformations & input perturbations, the frontier model GPT-5.2 exhibits significant brittleness. Despite achieving a near-perfect score of 99% on the original, unperturbed CRUXEval benchmark, perturbed inputs trigger accuracy declines between 20% and 24%. In addition, we find that many models perform much worse at predicting behavior on perturbed inputs that raise exceptions, and that prediction performance depends on the kind of exception. We study remedies to address this deficiency in exception prediction, and evaluate the effect of these remedies on the ability to predict non-exception behaviors. Our findings both point to limitations in the way all models understand code, and establish the value of using perturbation to evaluate code models.
- Abstract(参考訳): LLMは驚くべき推論能力を示しているが、それらが内的世界モデルを利用するのか、高度なパターンマッチングに依存しているのかは未解決のままである。
我々は,標準的なプログラム出力予測タスクを用いて,LLMをそのコード理解の堅牢性のレンズを通して研究する。
オープンソース推論モデル(DeepSeek-R1 family)は安定してはいるものの、コード変換と入力の摂動下では幾分低い精度(38%から67%)であるが、フロンティアモデル GPT-5.2 は重大な脆さを示す。
オリジナルのCRUXEvalベンチマークでほぼ完全なスコアが99%に達したにもかかわらず、摂動入力は20%から24%の精度低下を引き起こす。
さらに、多くのモデルでは、例外を発生させる摂動入力の振る舞いを予測するのがより悪く、予測性能は例外の種類に依存していることがわかった。
本研究は, 例外予測において, この欠損に対処するための治療法について検討し, 非例外行動を予測する能力に対するこれらの治療法の効果を評価する。
私たちの発見は、すべてのモデルがコードを理解する方法の限界を示し、コードモデルを評価するために摂動を使うことの価値を確立します。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Truthfulness Despite Weak Supervision: Evaluating and Training LLMs Using Peer Prediction [5.366560952801833]
本稿では,モデル評価とポストトレーニングのためのピア予測手法を提案する。
真面目で情報的な答えを欺いたり、非形式的な答えに報いる。
ピア予測に基づく報奨による8Bモデルのトレーニングは、以前の悪意のある微調整による真偽の低下の大部分を回復させることを示す。
論文 参考訳(メタデータ) (2026-01-28T06:47:46Z) - Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [8.166584296080805]
本稿では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
その結果,コミットメッセージとコード差分を組み合わせることで,モデルの性能が著しく向上することがわかった。
49のオープンソースプロジェクトにアプローチを適用することで、バグギーと非バグギーメソッド間のコードのメトリクスの分散分離性が向上します。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Variance of ML-based software fault predictors: are we really improving
fault prediction? [0.3222802562733786]
我々は、最先端の故障予測手法のばらつきを実験的に分析する。
我々は,クラス毎の精度測定値において最大10.10%のばらつきを観測した。
論文 参考訳(メタデータ) (2023-10-26T09:31:32Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Towards More Fine-grained and Reliable NLP Performance Prediction [85.78131503006193]
NLPタスクのパフォーマンス予測の改善に2つの貢献をしている。
まず,F1やBLEUのような総合的な精度測定のための性能予測器について検討する。
次に,信頼区間とキャリブレーションの2つの角度から性能予測モデルの信頼性を理解する手法を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:23:20Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。