論文の概要: Reasoning Path Divergence: A New Metric and Curation Strategy to Unlock LLM Diverse Thinking
- arxiv url: http://arxiv.org/abs/2510.26122v1
- Date: Thu, 30 Oct 2025 04:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.654669
- Title: Reasoning Path Divergence: A New Metric and Curation Strategy to Unlock LLM Diverse Thinking
- Title(参考訳): 経路の多様性を推論する: LLM の多元的思考を解き放つための新しいメトリクスとカリキュラム戦略
- Authors: Feng Ju, Zeyu Qin, Rui Min, Zhitao He, Lingpeng Kong, Yi R. Fung,
- Abstract要約: テスト時間スケーリング(TTS)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
提案手法は「一問題・複数解」(1PNS)の学習パラダイムであり,モデルから妥当な推論軌跡を抽出する手法である。
Reasoning Path Divergence (RPD) を用いて、問題ごとの最大多様な解集合と微調整Qwen3-4B-Baseをキュレートする。
- 参考スコア(独自算出の注目度): 49.8843966537226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Test-Time Scaling (TTS) has proven effective in improving the reasoning ability of large language models (LLMs), low diversity in model outputs often becomes a bottleneck; this is partly caused by the common "one problem, one solution" (1P1S) training practice, which provides a single canonical answer and can push models toward a narrow set of reasoning paths. To address this, we propose a "one problem, multiple solutions" (1PNS) training paradigm that exposes the model to a variety of valid reasoning trajectories and thus increases inference diversity. A core challenge for 1PNS is reliably measuring semantic differences between multi-step chains of thought, so we introduce Reasoning Path Divergence (RPD), a step-level metric that aligns and scores Long Chain-of-Thought solutions to capture differences in intermediate reasoning. Using RPD, we curate maximally diverse solution sets per problem and fine-tune Qwen3-4B-Base. Experiments show that RPD-selected training yields more varied outputs and higher pass@k, with an average +2.80% gain in pass@16 over a strong 1P1S baseline and a +4.99% gain on AIME24, demonstrating that 1PNS further amplifies the effectiveness of TTS. Our code is available at https://github.com/fengjujf/Reasoning-Path-Divergence .
- Abstract(参考訳): テスト時間スケーリング(TTS)は、大きな言語モデル(LLM)の推論能力を改善するのに有効であることが証明されているが、モデル出力の多様性が低いことは、しばしばボトルネックとなる。
この問題に対処するため,我々は,モデルが妥当な推論トラジェクトリに公開され,推論の多様性が増大する「1つの問題,複数解」(1PNS)トレーニングパラダイムを提案する。
1PNSの中核的な課題は、多段階の思考の連鎖間の意味的差異を確実に測定することであり、中間的推論における差異を捉えるために、Long Chain-of-Thoughtソリューションを整列し、スコアするステップレベルの計量であるReasoning Path Divergence (RPD)を導入することである。
RPDを用いて、問題ごとの最大多様な解集合と微調整Qwen3-4B-Baseをキュレートする。
実験の結果、PD選択したトレーニングはより多様な出力とより高いパス@kをもたらし、パス@16は強い1P1Sベースラインよりも平均+2.80%上昇し、AIME24では+4.99%上昇し、1PNSはTSの有効性をさらに増幅することが示された。
私たちのコードはhttps://github.com/fengjujf/Reasoning-Path-Divergence で利用可能です。
関連論文リスト
- The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [60.151643048803145]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - Flow of Reasoning: Training LLMs for Divergent Reasoning with Minimal Examples [12.48027669682156]
Flow of Reasoning (FoR)は、最小限のデータで多様性を向上させることを目的としている。
FoR は DAG 構造推論グラフ上のマルコフフローとして多段階 LLM 推論を定式化する。
実験によると、限られたトレーニング例で、FoRは多様な創造的で高品質なソリューションの発見を可能にする。
論文 参考訳(メタデータ) (2024-06-09T07:06:58Z) - DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。
まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。
特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。