論文の概要: On the Step Length Confounding in LLM Reasoning Data Selection
- arxiv url: http://arxiv.org/abs/2604.06834v1
- Date: Wed, 08 Apr 2026 08:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.438341
- Title: On the Step Length Confounding in LLM Reasoning Data Selection
- Title(参考訳): LLM推論データ選択におけるステップ長制約について
- Authors: Bing Wang, Rui Miao, Chen Shen, Shaotian Yan, Kaiyuan Liu, Ximing Li, Xiaosong Yuan, Sinan Fan, Jun Zhang, Jieping Ye,
- Abstract要約: 大規模言語モデルは、高品質のものよりも長い推論ステップのサンプルを好むことを示す。
この現象はステップ長共起(step length confounding)として知られている。
この問題を緩和する2つの方法を提案する。
- 参考スコア(独自算出の注目度): 46.02555419476045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large reasoning models have recently demonstrated strong performance on complex tasks that require long chain-of-thought reasoning, through supervised fine-tuning on large-scale and high-quality datasets. To construct such datasets, existing pipelines generate long reasoning data from more capable Large Language Models (LLMs) and apply manually heuristic or naturalness-based selection methods to filter high-quality samples. Despite the proven effectiveness of naturalness-based data selection, which ranks data by the average log probability assigned by LLMs, our analysis shows that, when applied to LLM reasoning datasets, it systematically prefers samples with longer reasoning steps (i.e., more tokens per step) rather than higher-quality ones, a phenomenon we term step length confounding. Through quantitative analysis, we attribute this phenomenon to low-probability first tokens in reasoning steps; longer steps dilute their influence, thereby inflating the average log probabilities. To address this issue, we propose two variant methods: ASLEC-DROP, which drops first-token probabilities when computing average log probability, and ASLEC-CASL, which applies a causal debiasing regression to remove the first tokens' confounding effect. Experiments across four LLMs and five evaluation benchmarks demonstrate the effectiveness of our approach in mitigating the step length confounding problem.
- Abstract(参考訳): 大規模な推論モデルは、大規模で高品質なデータセットの教師付き微調整を通じて、長いチェーンの推論を必要とする複雑なタスクに強いパフォーマンスを示してきた。
このようなデータセットを構築するために、既存のパイプラインはより有能なLarge Language Models(LLM)から長い推論データを生成し、手動でヒューリスティックまたは自然性に基づく選択手法を適用して高品質なサンプルをフィルタリングする。
LLMが割り当てた平均ログ確率でデータをランク付けする自然性に基づくデータ選択の有効性が証明されているにもかかわらず、LLM推論データセットに適用すると、より長い推論ステップ(つまり、ステップ当たりのトークン数の増加)のサンプルを体系的に選好する。
定量的解析により、この現象を推論ステップにおける低確率第一トークンとみなし、より長いステップで影響を減らし、平均ログ確率を膨らませる。
この問題に対処するため,平均ログ確率を計算する際,第1の確率を低下させるASLEC-DROPと,第1のトークンの共起効果を除去するために因果デバイアスレグレッションを適用するASLEC-CASLの2つの方法を提案する。
4つのLCMおよび5つの評価ベンチマーク実験により,ステップ長共起問題を緩和する手法の有効性が示された。
関連論文リスト
- InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - Truth in the Few: High-Value Data Selection for Efficient Multi-Modal Reasoning [71.3533541927459]
アクティベーション推論ポテンシャル(RAP)と呼ばれる新しいデータ選択パラダイムを提案する。
RAPは、真のマルチモーダル推論を刺激する各サンプルのポテンシャルを推定することで、認知サンプルを識別する。
我々のRAP法は、トレーニングデータの9.3%しか使用せず、計算コストを43%以上削減しながら、常に優れた性能を実現している。
論文 参考訳(メタデータ) (2025-06-05T08:40:24Z) - ActiveDPO: Active Direct Preference Optimization for Sample-Efficient Alignment [94.36403843133616]
人間の好みを使って大きな言語モデル(LLM)を整列させると、さまざまな下流タスクのパフォーマンスが大幅に向上する。
既存の方法には強い理論的な基礎が欠けているか、制限的な報酬関数の仮定に依存している。
非線型報酬関数に対して理論的に基底化されたデータ選択基準を用いるアルゴリズムであるActiveDPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T17:42:52Z) - FisherSFT: Data-Efficient Supervised Fine-Tuning of Language Models Using Information Gain [14.109309236798518]
Supervised Fine-tuning (SFT) は、大規模言語モデル(LLM)を新しいドメインに適用するための標準的なアプローチである。
本研究では,SFTの統計的効率を向上させるために,学習例の有意なサブセットを選択する。
論文 参考訳(メタデータ) (2025-05-20T18:41:34Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Pareto Optimization for Active Learning under Out-of-Distribution Data
Scenarios [79.02009938011447]
本研究では,未ラベルデータプールからバッチサイズを固定した未ラベルサンプルの最適なサブセットを選択するサンプリング手法を提案する。
実験の結果,従来の機械学習(ML)タスクとディープラーニング(DL)タスクの両方において,その効果が示された。
論文 参考訳(メタデータ) (2022-07-04T04:11:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。