Fugu-MT 論文翻訳(概要): Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions

論文の概要: Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions

arxiv url: http://arxiv.org/abs/2505.19949v1
Date: Mon, 26 May 2025 13:15:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.450973
Title: Which Data Attributes Stimulate Math and Code Reasoning? An Investigation via Influence Functions
Title（参考訳）: 数学とコード推論を刺激するデータはどれか?影響関数による検討
Authors: Siqi Kou, Qingyuan Tian, Hanwen Xu, Zihao Zeng, Zhijie Deng,
Abstract要約: 大規模言語モデル(LLM)は数学やコーディングにおいて顕著な推論能力を示している。影響関数を利用して、LLMの推論能力を数学やコーディングに当てはめ、個々のトレーニング例、シーケンス、トークンに当てはめます。高い微分率の数学の例は、算術とコード推論の両方を改善するが、低微分率のコードタスクは、コードの推論に最も効果的に寄与する。
参考スコア（独自算出の注目度）: 8.540135660509058
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated remarkable reasoning capabilities in math and coding, often bolstered by post-training on the chain-of-thoughts (CoTs) generated by stronger models. However, existing strategies for curating such training data predominantly rely on heuristics, limiting generalizability and failing to capture subtleties underlying in data. To address these limitations, we leverage influence functions to systematically attribute LLMs' reasoning ability on math and coding to individual training examples, sequences, and tokens, enabling deeper insights into effective data characteristics. Our Influence-based Reasoning Attribution (Infra) uncovers nontrivial cross-domain effects across math and coding tasks: high-difficulty math examples improve both math and code reasoning, while low-difficulty code tasks most effectively benefit code reasoning. Based on these findings, we introduce a simple yet effective dataset reweighting strategy by flipping task difficulty, which doubles AIME24 accuracy from 10\% to 20\% and boosts LiveCodeBench accuracy from 33.8\% to 35.3\% for Qwen2.5-7B-Instruct. Moreover, our fine-grained attribution reveals that the sequence-level exploratory behaviors enhance reasoning performance in both math and code, and the token-level influence patterns are distinct for math and code reasoning: the former prefers natural language logic connectors and the latter emphasizes structural syntax.
Abstract（参考訳）: 大規模言語モデル (LLM) は数学やコーディングにおいて顕著な推論能力を示しており、しばしばより強力なモデルによって生成されたチェーン・オブ・ソート (CoT) のポストトレーニングによって強化されている。しかし、そのようなトレーニングデータをキュレートするための既存の戦略は、主にヒューリスティックスに依存し、一般化可能性の制限と、データに根ざした微妙さの獲得に失敗している。これらの制限に対処するために、私たちは影響関数を活用し、LLMの推論能力を数学やコーディングに体系的に属性付けし、個々のトレーニング例、シーケンス、トークンに当てはめ、効果的なデータ特性に関する深い洞察を可能にする。我々の影響に基づく推論属性(Infra)は、数学とコーディングタスクの非自明なクロスドメイン効果を明らかにします。これらの結果から,タスクの難易度をフリップすることで,AIME24の精度を10\%から20\%に倍増し,Qwen2.5-7B-InstructのLiveCodeBenchの精度を33.8\%から35.3\%に向上させる,シンプルで効果的なデータセット再重み付け戦略を導入する。さらに,我々の微粒化属性から,シーケンスレベルの探索行動は数学とコードの両方における推論性能を高め,トークンレベルの影響パターンは数学とコード推論では異なることが明らかとなった。

関連論文リスト

CodeReasoner: Enhancing the Code Reasoning Ability with Reinforcement Learning [8.197518276987989]
コード推論は、コードドメインにおける大きな言語モデル(LLM)の基本的な機能である。それまでのアプローチは、主にコード推論タスクのパフォーマンスを改善するために教師付き微調整に依存していた。これはトレーニングデータの低品質と教師付き微調整の制限という2つの中核的な問題によるものです。データセット構築と2段階のトレーニングプロセスの両方にまたがるフレームワークであるCodeReasonerを提案する。
論文参考訳（メタデータ） (2025-07-23T14:26:58Z)
Improving LLMs' Generalized Reasoning Abilities by Graph Problems [31.07779603207159]
グラフ問題推論(GPR)タスクは、洗練された論理的推論とリレーショナル推論を必要とする。 GPRデータを用いたCPT用に設計された最初の大規模コーパスであるGraphPileを紹介する。人気のあるベースモデルであるLlama 3と3.1とGemma 2でGraphMindをトレーニングし、数学的推論において最大4.9%の精度を実現した。
論文参考訳（メタデータ） (2025-07-23T03:19:57Z)
Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。 TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文参考訳（メタデータ） (2025-07-10T07:34:05Z)
Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。 KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文参考訳（メタデータ） (2025-06-11T12:03:52Z)
ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models [14.403953640255823]
強化学習フレームワークに報酬信号として用いられる新しいスコアを導入し、モデルが正確かつ簡潔な推論トレースを生成するよう誘導する。このスコアは、ジャッジとして機能する大きな言語モデルによって評価され、単純なトークン長を超えて動的でコンテキスト対応のフィードバックを可能にする。提案手法は,MATHデータセット上での最先端の効率・正確性トレードオフを実現し,簡単な問題ではトークン使用率を最大31倍に削減し,精度を7%向上させるとともに,最も難しい問題では,トークン使用率を最大3.6倍に抑えながら,完全な推論を+7.5%向上させる。
論文参考訳（メタデータ） (2025-05-22T19:56:35Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [60.04718679054704]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。 SoTはトークンを最大78%削減し、15の推論データセットで最小限の精度損失を発生させる。
論文参考訳（メタデータ） (2025-03-07T06:57:17Z)
CoinMath: Harnessing the Power of Coding Instruction for Math LLMs [34.07259769892295]
大規模言語モデル (LLM) は数学的な問題を解く上で高い性能を示している。数学的推論を強化するための符号化命令データを活用するベストプラクティスは、いまだ研究されていない。 CoinMathは、簡潔なコメント、記述的な命名規則、ハードコードされたソリューションを組み込んだ、さまざまなコードベースの論理を生成する。
論文参考訳（メタデータ） (2024-12-16T12:21:11Z)
LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-06-20T06:42:27Z)
Data Interpreter: An LLM Agent For Data Science [43.13678782387546]
LLM(Large Language Model)ベースのエージェントは多くのアプリケーションで有効性を示している。しかし、長期的な相互接続タスク、動的なデータ調整、ドメインの専門知識の解決を必要とするデータサイエンスのシナリオでの利用は、依然として困難である。本稿では,LLMをベースとしたエージェントであるData Interpreterについて述べる。
論文参考訳（メタデータ） (2024-02-28T19:49:55Z)
When Do Program-of-Thoughts Work for Reasoning? [51.2699797837818]
本稿では,コードと推論能力の相関性を測定するために,複雑性に富んだ推論スコア(CIRS)を提案する。具体的には、抽象構文木を用いて構造情報をエンコードし、論理的複雑性を計算する。コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。
論文参考訳（メタデータ） (2023-08-29T17:22:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。