論文の概要: One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
- arxiv url: http://arxiv.org/abs/2506.02338v1
- Date: Tue, 03 Jun 2025 00:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.180628
- Title: One Missing Piece for Open-Source Reasoning Models: A Dataset to Mitigate Cold-Starting Short CoT LLMs in RL
- Title(参考訳): オープンソース推論モデルの欠落点:RLにおけるコールドスタートショートCoT LLMの緩和のためのデータセット
- Authors: Hyungjoo Chae, Dongjin Kang, Jihyuk Kim, Beong-woo Kwak, Sunghyun Park, Haeju Park, Jinyoung Yeo, Moontae Lee, Kyungjae Lee,
- Abstract要約: 提案するLong CoT Collectionは,既存の短いCOT LLMを用いた100K CoT論理値のデータセットである。
我々は,O1の新たな推論戦略を短いCOT LLMに誘導し,より長い思考を可能にするパイプラインを開発した。
我々の実験では、データセットのトレーニングは一般的な推論スキルを強化するだけでなく、強化学習の強力な基盤も提供します。
- 参考スコア(独自算出の注目度): 23.05557667879586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the release of R1, a publicly available large reasoning model (LRM), researchers commonly train new LRMs by training language models on R1's long chain-of-thought (CoT) inferences. While prior works show that LRMs' capabilities can be reproduced through direct distillation, the continued reliance on the existing models (e.g., R1) remains a critical limitation in advancing the field. As a first step toward independent LRM development, this paper explores the possibility of constructing a long CoT dataset with LLMs that are not trained for inference-time scaling. To this end, we present the Long CoT Collection, a dataset of 100K CoT rationales annotated using existing short CoT LLMs. We develop a pipeline that induces o1's novel reasoning strategies into short CoT LLMs, enabling them to think longer and introducing controllability over the thought budget to better manage the overthinking problem. Our extensive analyses validate that our dataset achieves quality comparable to--or slightly below--R1. Furthermore, our experiments demonstrate that training on our dataset not only strengthens general reasoning skills, but also provides a strong foundation for reinforcement learning--models initialized on our data achieve 2-3x larger gains with RLVR.
- Abstract(参考訳): R1のリリースにより、研究者はR1の長いチェーン・オブ・シークレット(CoT)推論に基づいて言語モデルをトレーニングすることで、新しいLEMをトレーニングする。
先行研究では、直接蒸留によりLRMの能力を再現できることが示されているが、既存のモデル(例えばR1)への継続的な依存は、フィールドを前進させる上で重要な限界である。
独立LRM開発に向けた第一歩として、推論時間スケーリングの訓練を受けていないLLMを用いて長いCoTデータセットを構築する可能性について検討する。
この目的のために,既存の短いCOT LLMを用いてアノテートした100K CoT論理値のデータセットであるLong CoT Collectionを提示する。
我々は、o1の新たな推論戦略を短いCOT LLMに誘導するパイプラインを開発し、より長い思考を可能にし、思考予算に対して制御性を導入し、過大な問題をよりよく管理する。
我々の分析は、我々のデータセットが-またはR1より少し低い品質を達成することを検証している。
さらに、我々の実験は、データセットのトレーニングが一般的な推論スキルを強化するだけでなく、強化学習のための強力な基盤を提供することを示した。
関連論文リスト
- Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning [10.255235456427037]
大規模言語モデル(LLM)における簡潔推論を実現するための簡易かつ効果的な2段階強化学習フレームワークを提案する。
最初の段階は、より多くのトレーニングステップを使用して、グループ相対ポリシー最適化を通じてモデルの推論能力をインセンティブ化することを目的としています。
第2段階は、より少ないトレーニングステップを使用して、簡潔さを明示的に実施し、Longth-aware Group Relative Policy Optimizationを通じて効率を向上させる。
論文 参考訳(メタデータ) (2025-05-27T13:29:51Z) - QwenLong-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning [80.26953590563232]
我々は、長文推論RLのパラダイムを定式化し、最適な訓練効率と不安定な最適化プロセスにおける重要な課題を特定する。
QwenLong-L1 は,コンテクストをプログレッシブ・コンテクスト・スケーリングにより長文シナリオに適応させるフレームワークである。
QwenLong-L1-32B は OpenAI-o3-mini や Qwen3-235B-A22B といったフラグシップ LRM よりも優れていた。
論文 参考訳(メタデータ) (2025-05-23T09:31:55Z) - 100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models [58.98176123850354]
最近のDeepSeek-R1のリリースは、広く社会的影響をもたらし、言語モデルの明確な推論パラダイムを探求する研究コミュニティに熱意を喚起した。
リリースされたモデルの実装詳細は、DeepSeek-R1-Zero、DeepSeek-R1、蒸留された小型モデルなど、DeepSeekによって完全にオープンソース化されていない。
多くのレプリケーション研究は、DeepSeek-R1が達成した強力なパフォーマンスを再現することを目的として、同様のトレーニング手順と完全なオープンソースデータリソースを通じて、同等のパフォーマンスに到達している。
論文 参考訳(メタデータ) (2025-05-01T14:28:35Z) - Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models [24.45348222168512]
マルチモーダル推論能力向上のためのMLLMであるVision-R1を提案する。
我々のモデルは、様々なマルチモーダル数学推論ベンチマークにおいて、$sim$6%の平均的な改善を達成している。
Vision-R1-7Bは広く使われているMathVistaベンチマークで73.5%の精度を実現している。
論文 参考訳(メタデータ) (2025-03-09T20:06:45Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Marco-o1 v2: Towards Widening The Distillation Bottleneck for Reasoning Models [39.22557129190619]
LRMの生成したデータに基づく蒸留は、より小さなモデルの推論能力を高めるための、単純かつ効果的な方法である。
このボトルネックを軽減するために,モンテカルロ木探索を用いて木に基づくCoTデータを構築することを提案する。
次に、構築したデータに基づいてSFTとRLを強化するために、Thoughts Length Balance, Fine-fine DPO, Joint Post-Training ObjectiveなどのCoT対応アプローチを利用する。
論文 参考訳(メタデータ) (2025-03-03T12:17:36Z) - BOLT: Bootstrap Long Chain-of-Thought in Language Models without Distillation [88.77999917897702]
OpenAIのo1は、驚くべき推論機能を示している。
多くのチームがLongCoTと推論機能を再現しようと試みている。
本稿では,o1-likeモデルや高価な人体アノテーションを蒸留することなくLCMのLongCoTキャパシティを実現するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-02-06T08:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。