論文の概要: S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs
- arxiv url: http://arxiv.org/abs/2602.01982v1
- Date: Mon, 02 Feb 2026 11:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.110954
- Title: S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs
- Title(参考訳): S3-CoT:S3-CoT-S3-CoT-Self-Sampled Succinct Reasoningによって高効率なLLMを実現する
- Authors: Yanrui Du, Sendong Zhao, Yibo Gao, Danyang Zhao, Qika Lin, Ming Ma, Jiayun Li, Yi Jiang, Kai He, Qianyi Xu, Bing Qin, Mengling Feng,
- Abstract要約: チェーン・オブ・シークレット(CoT)を備えた大規模言語モデルは、強力なパフォーマンスを実現し、振る舞いの窓を提供する。
最近の証拠は、CoT能力の改善には冗長な推論プロセスが伴うことを示唆している。
本研究では,効率的なCoT学習のためのアクティベーションステアリングに基づく自己サンプリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 48.80914119283909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) equipped with chain-of-thought (CoT) achieve strong performance and offer a window into LLM behavior. However, recent evidence suggests that improvements in CoT capabilities often come with redundant reasoning processes, motivating a key question: Can LLMs acquire a fast-thinking mode analogous to human System 1 reasoning? To explore this, our study presents a self-sampling framework based on activation steering for efficient CoT learning. Our method can induce style-aligned and variable-length reasoning traces from target LLMs themselves without any teacher guidance, thereby alleviating a central bottleneck of SFT-based methods-the scarcity of high-quality supervision data. Using filtered data by gold answers, we perform SFT for efficient CoT learning with (i) a human-like dual-cognitive system, and (ii) a progressive compression curriculum. Furthermore, we explore a self-evolution regime in which SFT is driven solely by prediction-consistent data of variable-length variants, eliminating the need for gold answers. Extensive experiments on math benchmarks, together with cross-domain generalization tests in medicine, show that our method yields stable improvements for both general and R1-style LLMs. Our data and model checkpoints can be found at https://github.com/DYR1/S3-CoT.
- Abstract(参考訳): 大型言語モデル (LLM) にはチェーン・オブ・シント (CoT) が備わっており、高い性能を実現し、LLMの振る舞いの窓口を提供する。
しかしながら、最近の証拠は、CoT能力の改善は、しばしば冗長な推論プロセスが伴うことを示唆し、重要な疑問を動機付けている。
そこで本研究では,効率的なCoT学習のためのアクティベーションステアリングに基づく自己サンプリングフレームワークを提案する。
提案手法は,教師の指導を必要とせずに,目標LLM自体からスタイル整合性および可変長推論トレースを誘導し,高品質な監視データの不足を解消する。
金の回答によるフィルタリングデータを用いて,効率的なCoT学習を行う。
(i)人間のような二重認識システム、及び
(ii)プログレッシブ圧縮カリキュラム。
さらに、SFTは可変長変量の予測一貫性データのみによって駆動され、金の解答が不要となる自己進化体制を探求する。
医学分野におけるクロスドメイン一般化試験と併用したベンチマーク実験により,本手法は一般およびR1スタイルのLLMに対して安定な改善をもたらすことが示された。
我々のデータとモデルチェックポイントはhttps://github.com/DYR1/S3-CoT.comで確認できます。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - First SFT, Second RL, Third UPT: Continual Improving Multi-Modal LLM Reasoning via Unsupervised Post-Training [37.80193099472551]
MLLMの教師なし後学習のための簡易かつ効果的なフレームワークであるMM-UPTを提案する。
本実験は,Qwen2.5-VL-7Bの推論能力を効果的に向上することを示した。
我々は、MLLMに新しいトレーニングサンプルを合成させる2つの戦略を設計し、我々のフレームワークをデータ・セルフジェネレーション・セッティングに拡張する。
論文 参考訳(メタデータ) (2025-05-28T15:11:16Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs [29.735465300269993]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示してきたが、しばしば空間的推論に苦しむ。
本稿では LLM と Answer Set Programming (ASP) の反復的フィードバックにより LLM の空間推論能力を高める新しいニューラルシンボリックフレームワークを提案する。
我々は、StepGameとSparQAという2つのベンチマークデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2024-11-27T18:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。