論文の概要: Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions
- arxiv url: http://arxiv.org/abs/2505.19949v1
- Date: Mon, 26 May 2025 13:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.450973
- Title: Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions
- Title(参考訳): 数学とコード推論を刺激するデータはどれか?影響関数による検討
- Authors: Siqi Kou, Qingyuan Tian, Hanwen Xu, Zihao Zeng, Zhijie Deng,
- Abstract要約: 大規模言語モデル(LLM)は数学やコーディングにおいて顕著な推論能力を示している。
影響関数を利用して、LLMの推論能力を数学やコーディングに当てはめ、個々のトレーニング例、シーケンス、トークンに当てはめます。
高い微分率の数学の例は、算術とコード推論の両方を改善するが、低微分率のコードタスクは、コードの推論に最も効果的に寄与する。
- 参考スコア(独自算出の注目度): 8.540135660509058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable reasoning capabilities in math and coding, often bolstered by post-training on the chain-of-thoughts (CoTs) generated by stronger models. However, existing strategies for curating such training data predominantly rely on heuristics, limiting generalizability and failing to capture subtleties underlying in data. To address these limitations, we leverage influence functions to systematically attribute LLMs' reasoning ability on math and coding to individual training examples, sequences, and tokens, enabling deeper insights into effective data characteristics. Our Influence-based Reasoning Attribution (Infra) uncovers nontrivial cross-domain effects across math and coding tasks: high-difficulty math examples improve both math and code reasoning, while low-difficulty code tasks most effectively benefit code reasoning. Based on these findings, we introduce a simple yet effective dataset reweighting strategy by flipping task difficulty, which doubles AIME24 accuracy from 10\% to 20\% and boosts LiveCodeBench accuracy from 33.8\% to 35.3\% for Qwen2.5-7B-Instruct. Moreover, our fine-grained attribution reveals that the sequence-level exploratory behaviors enhance reasoning performance in both math and code, and the token-level influence patterns are distinct for math and code reasoning: the former prefers natural language logic connectors and the latter emphasizes structural syntax.
- Abstract(参考訳): 大規模言語モデル (LLM) は数学やコーディングにおいて顕著な推論能力を示しており、しばしばより強力なモデルによって生成されたチェーン・オブ・ソート (CoT) のポストトレーニングによって強化されている。
しかし、そのようなトレーニングデータをキュレートするための既存の戦略は、主にヒューリスティックスに依存し、一般化可能性の制限と、データに根ざした微妙さの獲得に失敗している。
これらの制限に対処するために、私たちは影響関数を活用し、LLMの推論能力を数学やコーディングに体系的に属性付けし、個々のトレーニング例、シーケンス、トークンに当てはめ、効果的なデータ特性に関する深い洞察を可能にする。
我々の影響に基づく推論属性(Infra)は、数学とコーディングタスクの非自明なクロスドメイン効果を明らかにします。
これらの結果から,タスクの難易度をフリップすることで,AIME24の精度を10\%から20\%に倍増し,Qwen2.5-7B-InstructのLiveCodeBenchの精度を33.8\%から35.3\%に向上させる,シンプルで効果的なデータセット再重み付け戦略を導入する。
さらに,我々の微粒化属性から,シーケンスレベルの探索行動は数学とコードの両方における推論性能を高め,トークンレベルの影響パターンは数学とコード推論では異なることが明らかとなった。
関連論文リスト
- ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models [14.403953640255823]
強化学習フレームワークに報酬信号として用いられる新しいスコアを導入し、モデルが正確かつ簡潔な推論トレースを生成するよう誘導する。
このスコアは、ジャッジとして機能する大きな言語モデルによって評価され、単純なトークン長を超えて動的でコンテキスト対応のフィードバックを可能にする。
提案手法は,MATHデータセット上での最先端の効率・正確性トレードオフを実現し,簡単な問題ではトークン使用率を最大31倍に削減し,精度を7%向上させるとともに,最も難しい問題では,トークン使用率を最大3.6倍に抑えながら,完全な推論を+7.5%向上させる。
論文 参考訳(メタデータ) (2025-05-22T19:56:35Z) - Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。
我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。
私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文 参考訳(メタデータ) (2025-05-16T16:59:14Z) - CoinMath: Harnessing the Power of Coding Instruction for Math LLMs [34.07259769892295]
大規模言語モデル (LLM) は数学的な問題を解く上で高い性能を示している。
数学的推論を強化するための符号化命令データを活用するベストプラクティスは、いまだ研究されていない。
CoinMathは、簡潔なコメント、記述的な命名規則、ハードコードされたソリューションを組み込んだ、さまざまなコードベースの論理を生成する。
論文 参考訳(メタデータ) (2024-12-16T12:21:11Z) - Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。
しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。
本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文 参考訳(メタデータ) (2024-02-28T19:49:55Z) - When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。
具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。
コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文 参考訳(メタデータ) (2023-08-29T17:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。