論文の概要: CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis
- arxiv url: http://arxiv.org/abs/2602.13962v1
- Date: Sun, 15 Feb 2026 02:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.581954
- Title: CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis
- Title(参考訳): CodeGlance:多次元特徴解析によるLLMにおけるコード推論の課題理解
- Authors: Yunkun Wang, Xuanhe Zhang, Junxiao Han, Chen Zhi, Shuiguang Deng,
- Abstract要約: CodeGlanceは、3つの現実的なシナリオにわたるコード推論の課題を調査するベンチマークです。
未確認関数推論は,特に小型モデルでは重要な課題となる。
シナリオ間でコード推論の難しさに大きな影響を及ぼす重要なコード複雑性の特徴を特定します。
- 参考スコア(独自算出の注目度): 14.328535883908176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern software development, developers frequently need to understand code behavior at a glance -- whether reviewing pull requests, debugging issues, or navigating unfamiliar codebases. This ability to reason about dynamic program behavior is fundamental to effective software engineering and increasingly supported by Large Language Models (LLMs). However, existing studies on code reasoning focus primarily on isolated code snippets, overlooking the complexity of real-world scenarios involving external API interactions and unfamiliar functions. This gap hinders our understanding of what truly makes code reasoning challenging for LLMs across diverse programming contexts. We present CodeGlance, a multi-dimensional benchmark investigating code reasoning challenges across three realistic scenarios: intrinsic logic reasoning, API interaction reasoning, and unseen function reasoning. Through systematic evaluation of 7 state-of-the-art LLMs, we reveal that unseen function reasoning poses significant challenges especially for smaller models, with Qwen2.5-3b achieving only 6.0\% accuracy on unseen functions compared to 37.5\% on familiar APIs. We identify critical code complexity features -- including execution trace length, API invocation count, and control flow complexity -- that significantly impact code reasoning difficulty across scenarios. We further investigate how common augmentation strategies, including CoT, document retrieval, and code search, can improve reasoning performance, finding that their effectiveness varies substantially depending on whether challenges stem from logical complexity or knowledge gaps. These findings provide actionable guidance for developing more capable code reasoning systems and deploying LLM-based programming assistants in real-world software development.
- Abstract(参考訳): 現代的なソフトウェア開発では、プルリクエストのレビューやデバッグの問題、馴染みの無いコードベースのナビゲートなど、開発者が一目でコード動作を理解する必要があります。
この動的プログラムの振る舞いを推論する能力は、効果的なソフトウェア工学の基本であり、Large Language Models (LLMs) によってますます支持されている。
しかし、コード推論に関する既存の研究は、主に独立したコードスニペットに焦点を当てており、外部APIのインタラクションや不慣れな関数を含む現実世界のシナリオの複雑さを見下ろしている。
このギャップは、様々なプログラミングコンテキストにまたがるLCMにとって真のコード推論の難しさに対する私たちの理解を妨げます。
CodeGlanceは,本質的な論理推論,APIインタラクション推論,見当たらない関数推論という,3つの現実シナリオにわたるコード推論の課題を調査する多次元ベンチマークである。
最新の7つのLCMを体系的に評価した結果,特に小型モデルでは未確認関数の推論が重要な課題となり,Qwen2.5-3bは既知のAPIでは37.5\%に比べて6.0\%の精度しか達成できないことがわかった。
実行トレースの長さ、API呼び出し数、制御フローの複雑さなど、重要なコードの複雑さの特徴を特定します。
さらに,CoT,文書検索,コード検索などの一般的な拡張戦略が,論理的複雑性や知識のギャップに起因するかによって,その効果が著しく変化することを示す。
これらの知見は、より有能なコード推論システムを開発し、LLMベースのプログラミングアシスタントを現実世界のソフトウェア開発に展開するための実用的なガイダンスを提供する。
関連論文リスト
- When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。