論文の概要: VCORE: Variance-Controlled Optimization-based Reweighting for Chain-of-Thought Supervision
- arxiv url: http://arxiv.org/abs/2510.27462v1
- Date: Fri, 31 Oct 2025 13:19:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.109555
- Title: VCORE: Variance-Controlled Optimization-based Reweighting for Chain-of-Thought Supervision
- Title(参考訳): VCORE:Chain-of-Thoughtスーパービジョンのための可変制御最適化に基づくリヘアリング
- Authors: Xuan Gong, Senmiao Wang, Hanbo Huang, Ruoyu Sun, Shiyu Liang,
- Abstract要約: 我々はtextbfVariance-textbfControlled textbfOptimization-based textbfREweighting (VCORE)を紹介する。
最適化理論の観点を採用することで、VCOREはトークン間での監督の原則的かつ適応的な割り当てを可能にする。
経験的評価は、VCOREが既存のトークン再重み付け法を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 9.028503801131933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) on long chain-of-thought (CoT) trajectories has emerged as a crucial technique for enhancing the reasoning abilities of large language models (LLMs). However, the standard cross-entropy loss treats all tokens equally, ignoring their heterogeneous contributions across a reasoning trajectory. This uniform treatment leads to misallocated supervision and weak generalization, especially in complex, long-form reasoning tasks. To address this, we introduce \textbf{V}ariance-\textbf{C}ontrolled \textbf{O}ptimization-based \textbf{RE}weighting (VCORE), a principled framework that reformulates CoT supervision as a constrained optimization problem. By adopting an optimization-theoretic perspective, VCORE enables a principled and adaptive allocation of supervision across tokens, thereby aligning the training objective more closely with the goal of robust reasoning generalization. Empirical evaluations demonstrate that VCORE consistently outperforms existing token reweighting methods. Across both in-domain and out-of-domain settings, VCORE achieves substantial performance gains on mathematical and coding benchmarks, using models from the Qwen3 series (4B, 8B, 32B) and LLaMA-3.1-8B-Instruct. Moreover, we show that VCORE serves as a more effective initialization for subsequent reinforcement learning, establishing a stronger foundation for advancing the reasoning capabilities of LLMs. The Code will be released at https://github.com/coder-gx/VCORE.
- Abstract(参考訳): 長いチェーン・オブ・シークレット(CoT)軌道上の超微調整(SFT)が,大規模言語モデル(LLM)の推論能力を高める重要な手法として登場した。
しかし、標準的なクロスエントロピー損失は全てのトークンを等しく扱い、推論軌道を越えて不均一な寄与を無視している。
この均一な治療は、特に複雑で長期の推論タスクにおいて、誤った配置の監督と弱い一般化をもたらす。
そこで本稿では,CoT の監督を制約付き最適化問題として再検討する原則的フレームワークである \textbf{V}ariance-\textbf{C}ontrolled \textbf{O}ptimization-based \textbf{RE}weighting (VCORE) を紹介する。
最適化理論の観点を採用することで、VCOREはトークン間の監督の原則的かつ適応的なアロケーションを可能にし、トレーニング目標と堅牢な推論一般化の目標をより緊密に調整することができる。
経験的評価は、VCOREが既存のトークン再重み付け法を一貫して上回っていることを示している。
ドメイン内設定とドメイン外設定の両方で、VCOREはQwen3シリーズ(4B、8B、32B)とLLaMA-3.1-8B-インストラクタのモデルを使用して、数学的およびコーディングベンチマークで大幅なパフォーマンス向上を達成した。
さらに, VCOREは後続の強化学習においてより効果的な初期化として機能し, LLMの推論能力を高めるための強力な基盤を確立していることを示す。
コードはhttps://github.com/coder-gx/VCOREでリリースされる。
関連論文リスト
- Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - CARFT: Boosting LLM Reasoning via Contrastive Learning with Annotated Chain-of-Thought-based Reinforced Fine-Tuning [25.142128256576985]
注釈付きCoTをベースとしたReinforced Fine-Tuningアプローチ,すなわちTheNameを用いたコントラスト学習を提案し,大規模言語モデルの推論性能を向上させる。
提案手法は、利用可能な注釈付きCoTを十分に活用するだけでなく、教師なし学習信号を付加することにより微調整手順を安定化する。
論文 参考訳(メタデータ) (2025-08-21T00:20:47Z) - SCOUT: Teaching Pre-trained Language Models to Enhance Reasoning via Flow Chain-of-Thought [37.53215651690168]
思考の連鎖(CoT)は、ステップ思考を奨励することで、大きな言語モデル(LLM)の推論性能を向上させる。
有望ではあるが、CoTベースのアプローチは、しばしばコストのかかる事前トレーニングを必要とし、推論の進化に関する原則的なフレームワークを欠いている。
プリトレーニングを必要とせずにFlow CoTスタイルの推論を可能にする軽量な微調整フレームワークSCOUTを提案する。
論文 参考訳(メタデータ) (2025-05-30T03:43:24Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - Fine-Tuning on Diverse Reasoning Chains Drives Within-Inference CoT Refinement in LLMs [63.36637269634553]
本稿では,LLMを微調整し,一つの推論ステップで思考の逆連鎖(DCoT)を生成する手法を提案する。
DCoTの微調整により,モデルファミリおよびスケール間のCoTベースライン上での性能が向上することを示す。
我々の研究は、定量的解析と手動評価の両方で、観測された利益は、最初の推論連鎖を洗練させるモデルの能力に由来することを明らかにしているため、重要である。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。