論文の概要: CircuitSeer: Mining High-Quality Data by Probing Mathematical Reasoning Circuits in LLMs
- arxiv url: http://arxiv.org/abs/2510.18470v1
- Date: Tue, 21 Oct 2025 09:47:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.337578
- Title: CircuitSeer: Mining High-Quality Data by Probing Mathematical Reasoning Circuits in LLMs
- Title(参考訳): CircuitSeer: LLMにおける数学的推論回路の探索による高品質データのマイニング
- Authors: Shaobo Wang, Yongliang Miao, Yuancheng Liu, and Qianli Ma, Ning Liao, Linfeng Zhang,
- Abstract要約: 大規模言語モデル(LLM)は印象的な推論機能を示しているが、そのパフォーマンスは大規模な推論データセットに依存していることが多い。
本稿では,これらの重要な回路への影響を測定することによって,データの推論複雑性を定量化する新しいデータ選択手法であるCircuitSeerを提案する。
- 参考スコア(独自算出の注目度): 12.76443204897551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive reasoning capabilities, but scaling their performance often relies on massive reasoning datasets that are computationally expensive to train on. Existing data selection methods aim to curate smaller, high-quality subsets but often rely on costly external models or opaque heuristics. In this work, we shift the focus from external heuristics to the model's internal mechanisms. We find that complex reasoning tasks consistently activate a sparse, specialized subset of attention heads, forming core reasoning circuits. Building on this insight, we propose CircuitSeer, a novel data selection method that quantifies the reasoning complexity of data by measuring its influence on these crucial circuits. Extensive experiments on 4 models and 9 datasets demonstrate CircuitSeer's superiority. Notably, fine-tuning Qwen2.5-Math-7B on just 10% of data selected by our method achieves a 1.4-point gain in average Pass@1 over training on the full dataset, highlighting its efficiency and effectiveness.
- Abstract(参考訳): 大規模言語モデル(LLM)は印象的な推論機能を示しているが、そのパフォーマンスのスケールアップは、トレーニングに計算コストのかかる膨大な推論データセットに依存することが多い。
既存のデータ選択方法は、より小さく高品質なサブセットをキュレートすることを目的としているが、しばしば高価な外部モデルや不透明なヒューリスティックに依存している。
本研究では、外部ヒューリスティックからモデルの内部メカニズムに焦点を移す。
複雑な推論タスクは、注目ヘッドのスパースで特別なサブセットを一貫して活性化し、コア推論回路を形成する。
この知見に基づいて,これらの重要な回路への影響を測定することによって,データの推論複雑性を定量化する新しいデータ選択手法であるCircuitSeerを提案する。
4つのモデルと9つのデータセットに関する大規模な実験は、CircuitSeerの優位性を示している。
特に,本手法で選択したデータの10%だけを微調整したQwen2.5-Math-7Bは,全データセットでのトレーニングよりも平均1.4ポイントのPass@1を達成し,その効率性と有効性を強調した。
関連論文リスト
- TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Select2Reason: Efficient Instruction-Tuning Data Selection for Long-CoT Reasoning [24.33670771559359]
提案するSelect2Reasonは,Long-CoT推論のための新しい,効率的な命令チューニングデータ選択フレームワークである。
Select2Reasonは,3つの競合レベルと6つの総合的な数学的ベンチマークで,フルデータチューニングとオープンソースベースラインOpenR1-Qwen-7Bに比較して,性能を向上することを示す。
論文 参考訳(メタデータ) (2025-05-22T20:24:08Z) - RICo: Refined In-Context Contribution for Automatic Instruction-Tuning Data Selection [29.459431336830267]
本研究では,タスクレベルとグローバルレベルの両方のモデル性能に対して,個々のサンプルの微細な寄与を定量化する勾配のない手法を提案する。
我々は、RICoスコアに基づいて訓練された軽量な選択パラダイムを導入し、厳密な線形推論の複雑さでスケーラブルなデータ選択を可能にする。
論文 参考訳(メタデータ) (2025-05-08T15:17:37Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。