論文の概要: Not All Code Is Equal: A Data-Centric Study of Code Complexity and LLM Reasoning
- arxiv url: http://arxiv.org/abs/2601.21894v1
- Date: Thu, 29 Jan 2026 15:54:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.959146
- Title: Not All Code Is Equal: A Data-Centric Study of Code Complexity and LLM Reasoning
- Title(参考訳): すべてのコードが同じとは限らない - コードの複雑さとLLM推論に関するデータ中心の研究
- Authors: Lukas Twist, Shu Yang, Hanqi Yan, Jingzhi Gong, Di Wang, Helen Yannakoudakis, Jie M. Zhang,
- Abstract要約: 大きな言語モデル(LLM)は強い推論能力を持つようになり、しばしばチェーン・オブ・オブ・シンクスタイルの中間推論を生成する能力に起因している。
最近の研究は、コードへの露出がこれらのスキルをさらに強化することを示しているが、既存の研究は、コードを一般的なトレーニング信号として扱うことが多い。
本研究では、制御フローと構成構造をキャプチャーし、微調整中にモデルがマルチステップ推論を内部化する方法をモデル化するコードの構造的複雑さについて検討する。
- 参考スコア(独自算出の注目度): 16.919028520729793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) increasingly exhibit strong reasoning abilities, often attributed to their capacity to generate chain-of-thought-style intermediate reasoning. Recent work suggests that exposure to code can further enhance these skills, but existing studies largely treat code as a generic training signal, leaving open the question of which properties of code actually contribute to improved reasoning. To address this gap, we study the structural complexity of code, which captures control flow and compositional structure that may shape how models internalise multi-step reasoning during fine-tuning. We examine two complementary settings: solution-driven complexity, where complexity varies across multiple solutions to the same problem, and problem-driven complexity, where complexity reflects variation in the underlying tasks. Using cyclomatic complexity and logical lines of code to construct controlled fine-tuning datasets, we evaluate a range of open-weight LLMs on diverse reasoning benchmarks. Our findings show that although code can improve reasoning, structural properties strongly determine its usefulness. In 83% of experiments, restricting fine-tuning data to a specific structural complexity range outperforms training on structurally diverse code, pointing to a data-centric path for improving reasoning beyond scaling.
- Abstract(参考訳): 大きな言語モデル(LLM)は強い推論能力を持つようになり、しばしばチェーン・オブ・オブ・シンクスタイルの中間推論を生成する能力に起因している。
最近の研究は、コードへの露出がこれらのスキルをさらに強化することを示唆しているが、既存の研究は、コードの一般的なトレーニングシグナルとして主に扱い、コードのどの特性が推論の改善に実際に寄与しているかという疑問を解き放つ。
このギャップに対処するために、制御フローと構成構造をキャプチャーし、微調整中にモデルがマルチステップ推論を内部化する方法を形作るコードの構造的複雑さについて検討する。
ソリューション駆動型複雑性(英語版)は、同じ問題に対して複数のソリューションにまたがって複雑さが変化するが、問題駆動型複雑性(英語版)は、基礎となるタスクのバリエーションを反映する。
制御された微調整データセットの構築には,サイクロマティックな複雑さと論理的なコード行を用いて,多様な推論ベンチマークを用いて,オープンウェイト LLM の範囲を評価した。
その結果,コードは推論を改善することができるが,構造的特性は有用性を強く決定することがわかった。
83%の実験では、微調整データを特定の構造的な複雑さに制限することは、構造的に多様なコードのトレーニングよりも優れており、スケーリング以上の推論を改善するためのデータ中心の道を指し示している。
関連論文リスト
- CodeGlance: Understanding Code Reasoning Challenges in LLMs through Multi-Dimensional Feature Analysis [14.328535883908176]
CodeGlanceは、3つの現実的なシナリオにわたるコード推論の課題を調査するベンチマークです。
未確認関数推論は,特に小型モデルでは重要な課題となる。
シナリオ間でコード推論の難しさに大きな影響を及ぼす重要なコード複雑性の特徴を特定します。
論文 参考訳(メタデータ) (2026-02-15T02:46:51Z) - Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization [8.236500918322138]
本稿では,分散の複雑さ(複雑度OoD)の一般化を推論を定義し,測定するためのフレームワークとして提案する。
モデルは、必要最小限のソリューションの複雑さがすべてのトレーニング例の複雑さを超えるテストインスタンスのパフォーマンスを維持するときに、複雑さのOoD一般化を示す。
私たちはこの視点を,スタック全体にわたる複雑度OoDの運用を推奨する形で,実践に転換します。
論文 参考訳(メタデータ) (2025-10-06T13:08:31Z) - Code to Think, Think to Code: A Survey on Code-Enhanced Reasoning and Reasoning-Driven Code Intelligence in LLMs [53.00384299879513]
大規模言語モデル(LLM)では、コードと推論が互いに強化される。
コードは検証可能な実行パスを提供し、論理的な分解を強制し、実行時の検証を可能にする。
我々は,このシナジーを強化するために,重要な課題を特定し,今後の研究方向性を提案する。
論文 参考訳(メタデータ) (2025-02-26T18:55:42Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - Parrot Mind: Towards Explaining the Complex Task Reasoning of Pretrained Large Language Models with Template-Content Structure [66.33623392497599]
テンプレート・コンテント構造(T-C構造)と呼ばれる構造は指数レベルから線形レベルへの可能な空間を減少させることができることを示す。
モデルがタスク構成を達成でき、線形から対数への学習に必要なスペースをさらに削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-09T06:57:45Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z) - Query Structure Modeling for Inductive Logical Reasoning Over Knowledge
Graphs [67.043747188954]
KGに対する帰納的論理的推論のための構造モデル付きテキスト符号化フレームワークを提案する。
線形化されたクエリ構造とエンティティを、事前訓練された言語モデルを使ってエンコードして、回答を見つける。
2つの帰納的論理推論データセットと3つの帰納的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-23T01:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。