論文の概要: Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.05105v1
- Date: Thu, 04 Dec 2025 18:59:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.336048
- Title: Semantic Soft Bootstrapping: Long Context Reasoning in LLMs without Reinforcement Learning
- Title(参考訳): 意味的ソフトブートストラップ:強化学習を伴わないLLMにおける長期文脈推論
- Authors: Purbesh Mitra, Sennur Ulukus,
- Abstract要約: 大規模言語モデル(LLM)における長期文脈推論は、チェーン・オブ・ソート(CoT)推論による認知能力の向上を実証している。
このようなモデルのトレーニングは通常、数学やプログラミングのような推論に基づく問題において、検証可能な報酬(RLVR)を用いた強化学習によって行われる。
我々は,教師と学生の両方の役割を同一のベース言語モデルで担う自己蒸留技術であるtextbfSemantic Soft Bootstrapping (SSB) を提案する。
- 参考スコア(独自算出の注目度): 46.765013720309064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long context reasoning in large language models (LLMs) has demonstrated enhancement of their cognitive capabilities via chain-of-thought (CoT) inference. Training such models is usually done via reinforcement learning with verifiable rewards (RLVR) in reasoning based problems, like math and programming. However, RLVR is limited by several bottlenecks, such as, lack of dense reward, and inadequate sample efficiency. As a result, it requires significant compute resources in post-training phase. To overcome these limitations, in this work, we propose \textbf{Semantic Soft Bootstrapping (SSB)}, a self-distillation technique, in which the same base language model plays the role of both teacher and student, but receives different semantic contexts about the correctness of its outcome at training time. The model is first prompted with a math problem and several rollouts are generated. From them, the correct and most common incorrect response are filtered, and then provided to the model in context to produce a more robust, step-by-step explanation with a verified final answer. This pipeline automatically curates a paired teacher-student training set from raw problem-answer data, without any human intervention. This generation process also produces a sequence of logits, which is what the student model tries to match in the training phase just from the bare question alone. In our experiment, Qwen2.5-3B-Instruct on GSM8K dataset via parameter-efficient fine-tuning. We then tested its accuracy on MATH500, and AIME2024 benchmarks. Our experiments show a jump of 10.6%, and 10% improvements in accuracy, respectively, over group relative policy optimization (GRPO), which is a commonly used RLVR algorithm. Our code is available at https://github.com/purbeshmitra/semantic-soft-bootstrapping, and the model, curated dataset is available at https://huggingface.co/purbeshmitra/semantic-soft-bootstrapping.
- Abstract(参考訳): 大規模言語モデル(LLM)における長期文脈推論は、チェーン・オブ・ソート(CoT)推論による認知能力の向上を実証している。
このようなモデルのトレーニングは通常、数学やプログラミングのような推論に基づく問題において、検証可能な報酬(RLVR)を用いた強化学習によって行われる。
しかし、RLVRは、高密度報酬の欠如、サンプル効率の不十分など、いくつかのボトルネックによって制限されている。
結果として、トレーニング後の段階でかなりの計算リソースが必要になる。
このような制約を克服するため,本研究では,教師と学生の両方の役割を同一のベース言語モデルで担う自己蒸留技術である‘textbf{Semantic Soft Bootstrapping(SSB)’を提案する。
モデルはまず数学的な問題によって引き起こされ、いくつかのロールアウトが生成される。
それらから、正しい最も一般的な誤った応答をフィルタリングし、そのモデルにコンテキストで提供し、検証された最終回答でより堅牢でステップバイステップの説明を生成する。
このパイプラインは、人間の介入なしに、生の問題解決データからペア化された教師学生のトレーニングを自動でキュレートする。
この生成プロセスはまた、学生モデルが素の質問だけでトレーニングフェーズで一致させようとする、一連のロジットを生成する。
本実験では,パラメータ効率の微調整によるGSM8Kデータセット上のQwen2.5-3B-インストラクションについて検討した。
そして、その精度をMATH500とAIME2024ベンチマークでテストしました。
RLVRアルゴリズムであるグループ相対ポリシー最適化 (GRPO) よりも, それぞれ10.6%, 10%の精度向上が見られた。
私たちのコードはhttps://github.com/purbeshmitra/semantic-soft-bootstrappingで利用可能です。
関連論文リスト
- MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning [20.82742383613536]
マルチモーダル大言語モデル (MLLM) は視覚言語対応タスクにおいて顕著な機能を示した。
これまでの研究は、特殊な数学的データセットの微調整に重点を置いてきた。
メソッドは推論、リフレクション、報酬に基づくフィードバックのサイクルを通じてモデルを反復的に洗練する。
MathVL-testの結果は、主要なオープンソースマルチモーダル数学的推論モデルQVQを上回った。
論文 参考訳(メタデータ) (2025-11-10T07:46:19Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games [3.615981646205045]
望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
論文 参考訳(メタデータ) (2023-04-14T17:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。