論文の概要: Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings
- arxiv url: http://arxiv.org/abs/2512.14917v1
- Date: Tue, 16 Dec 2025 21:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.787199
- Title: Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings
- Title(参考訳): 実世界環境下における大規模言語モデルのコード推論能力の評価
- Authors: Changshu Liu, Alireza Ghazanfari, Yang Chen, Reyhaneh Jabbarvand,
- Abstract要約: RE2-Benchは、成熟した現実世界のプロジェクトから引き出された195を含む1,101の推論問題のベンチマークである。
RE2-Benchを用いた2つの広く使われているコード推論タスクに対する6つの汎用的および推論指向のLCMの包括的な評価は、簡単な問題から難しい問題への大幅なパフォーマンス低下を明らかにしている。
- 参考スコア(独自算出の注目度): 5.30570508258782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code reasoning tasks are becoming prevalent in large language model (LLM) assessments. Existing benchmarks involve simple programs, failing to represent real-world complexities such as inter- or intra-procedural dependencies, core or third-party API calls, highly nested constructs, and non-primitive complex types. Evaluating LLMs under such a simplistic setting poses a significant threat to assumptions about their generalizability in practice. To enable a more realistic evaluation of code reasoning, this paper proposes RE2-Bench, a benchmark of 1,101 reasoning problems, including 195 drawn from mature real-world projects. RE2-Bench leverages static and dynamic program analysis to automatically serialize and deserialize compound, complex, and custom types in real-world code, going far beyond the primitive-only settings used in prior work. A key feature of RE2-Bench is categorizing each reasoning problem as Easy or Hard via a principled majority-vote mechanism over nine interpretable code complexity metrics, resulting in two well-separated and semantically meaningful difficulty categories suitable for precise calibration of LLM reasoning ability. A comprehensive evaluation of six general-purpose and reasoning-oriented LLMs on two widely used code reasoning tasks -- input prediction and output prediction -- using RE2-Bench reveals a significant performance drop from Easy to Hard problems (51.50\% for input prediction and 42.15\% for output prediction), confirming that prior evaluations substantially overestimate the reasoning capabilities of LLMs.
- Abstract(参考訳): コード推論タスクは、大きな言語モデル(LLM)アセスメントで一般的になっています。
既存のベンチマークには単純なプログラムが含まれており、プロセス間の依存関係、コアまたはサードパーティのAPI呼び出し、高度にネストされた構造体、非プリミティブな複雑な型といった現実世界の複雑さを表現できない。
このような単純化された条件下でのLLMの評価は、実際的な一般化可能性に関する仮定に重大な脅威をもたらす。
本稿では、より現実的なコード推論の評価を可能にするために、成熟した実世界のプロジェクトから引き出された195件を含む1,101件の推論問題のベンチマークであるRE2-Benchを提案する。
RE2-Benchは静的および動的プログラム分析を利用して、現実世界のコードで複合型、複雑型、カスタム型を自動的にシリアライズし、デシリアライズする。
RE2-Benchの重要な特徴は、各推論問題を9つの解釈可能なコード複雑性メトリクスに対して、原則化された多数投票機構を通じてEasy or Hardとして分類することである。
RE2-Benchを用いた2つの広く使われているコード推論タスク(入力予測と出力予測)に対する6つの汎用的および推論指向のLCMの総合的な評価では、簡単な問題から難しい問題(入力予測は51.50\%、出力予測は42.15\%)への大幅なパフォーマンス低下が示され、以前の評価がLLMの推論能力を大幅に過大評価していることが確認された。
関連論文リスト
- seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Computational Thinking Reasoning in Large Language Models [69.28428524878885]
計算思考モデル(CTM)は、計算思考パラダイムを大規模言語モデル(LLM)に組み込んだ新しいフレームワークである。
ライブコード実行は推論プロセスにシームレスに統合され、CTMが計算によって考えることができる。
CTMは、精度、解釈可能性、一般化可能性の観点から、従来の推論モデルとツール拡張ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-06-03T09:11:15Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models [13.083179473480705]
大規模推論モデル(LRM)は、思考の明示的な連鎖を通じて複雑な推論タスクにおいてブレークスルーを達成した。
システム2の思考に大きく依存しているため、システム1の思考能力は制限される可能性がある。
S1-Bench氏は、システム1.1にもっと適した質問に対して、LEMのパフォーマンスを評価するために、単純で多様で自然な質問のスイートを紹介している。
論文 参考訳(メタデータ) (2025-04-14T16:13:23Z) - Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment [21.12989936864145]
CoT(Chain-of-Thought)のプロンプトによって,大規模言語モデル(LLM)の推論能力の向上が期待できる。
本稿では、生成したプログラムと対応するNL記述との間に論理単位を整列させることにより、より信頼性の高い推論経路を構築するReasoning-as-Logic-Units (RaLU)を提案する。
論文 参考訳(メタデータ) (2025-02-05T08:23:18Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。