論文の概要: Balanced Thinking: Improving Chain of Thought Training in Vision Language Models
- arxiv url: http://arxiv.org/abs/2603.18656v1
- Date: Thu, 19 Mar 2026 09:21:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.057769
- Title: Balanced Thinking: Improving Chain of Thought Training in Vision Language Models
- Title(参考訳): バランスの取れた思考:視覚言語モデルにおける思考訓練の連鎖性を改善する
- Authors: Shaked Perek, Ben Wiesel, Avihu Dekel, Nimrod Shabtay, Eli Schwartz,
- Abstract要約: 視覚言語モデルにおけるマルチモーダル推論は、教師付き微調整と強化学習という2段階のプロセスに依存している。
動的で長さに依存しない重み付けを用いて、推論と回答セグメントの監督を明示的に分離するSCALeを提案する。
その結果,SCALeはバニラSFTよりも常に精度を向上し,フル2相SFT+GRPOパイプラインの性能と一致していることがわかった。
- 参考スコア(独自算出の注目度): 6.47886000593456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal reasoning in vision-language models (VLMs) typically relies on a two-stage process: supervised fine-tuning (SFT) and reinforcement learning (RL). In standard SFT, all tokens contribute equally to the loss, even though reasoning data are inherently token-imbalanced. Long <think> traces overshadow short but task-critical <answer> segments, leading to verbose reasoning and inaccurate answers. We propose SCALe (Scheduled Curriculum Adaptive Loss), which explicitly separates supervision over reasoning and answer segments using dynamic, length-independent weighting. Unlike vanilla SFT, which overweights the <think> segment, SCALe-SFT gradually shifts the focus from <think> to <answer> throughout training via a cosine scheduling policy, encouraging concise and well-grounded reasoning. We evaluate SCALe across diverse benchmarks and architectures. Results show that SCALe consistently improves accuracy over vanilla SFT and matches the performance of the full two-phase SFT + GRPO pipeline while requiring only about one-seventh of the training time, making it a lightweight yet effective alternative. When combined with GRPO, SCALe achieves the best overall performance, highlighting its value both as a standalone method and as a strong foundation for reinforcement refinement.
- Abstract(参考訳): 視覚言語モデル(VLM)におけるマルチモーダル推論は、典型的には2段階のプロセスに依存している: 教師付き微調整(SFT)と強化学習(RL)である。
標準的なSFTでは、推論データが本質的にトークン不均衡であるにもかかわらず、すべてのトークンが損失に等しく寄与する。
Long <think> は短いがタスククリティカルな<answer>セグメントに隠れており、冗長な推論と不正確な回答をもたらす。
我々は,動的で長さに依存しない重み付けを用いて,推論と回答セグメントの監督を明示的に分離するSCALe(Scheduled Curriculum Adaptive Loss)を提案する。
SCALe-SFTは,<think>セグメントを過度に重くするバニラSFTとは違って,コサインスケジューリングポリシによるトレーニングを通じて,<think>から<answer>への焦点を徐々にシフトする。
SCALeはさまざまなベンチマークやアーキテクチャで評価しています。
その結果、SCALeはバニラSFTよりも常に精度を向上し、トレーニング時間の約7分の1しか必要とせず、フル2相SFT + GRPOパイプラインの性能と一致し、軽量で効果的な代替手段であることがわかった。
GRPOと組み合わせると、SCALeは最高の全体的なパフォーマンスを達成し、スタンドアローンメソッドと強化強化のための強力な基盤の両方としての価値を強調します。
関連論文リスト
- Debunk the Myth of SFT Generalization [13.700645417996412]
一般的な見解では、教師付き微調整(SFT)は一般化に失敗するが、強化学習(RL)はより広範な堅牢性を実現する。
SFTが認識する障害の多くは凍結急激な人工物によるものであることを示す。
SFTがより厳密なタスクを一般化できるかどうかを問う。
論文 参考訳(メタデータ) (2025-09-30T20:01:09Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Skip-Thinking: Chunk-wise Chain-of-Thought Distillation Enable Smaller Language Models to Reason Better and Faster [51.89995713333108]
CoT (Chain-of-Thought) 蒸留により、大きな言語モデル (LLM) がタスクを推論するために小さな言語モデル (SLM) を導くことができる。
既存の方法は、SLMに1イテレーションで長い合理性を学ぶように訓練する。
本稿では,論理を内部意味的コヒーレントなチャンクに分割するために探索を用いるチャンクワイズトレーニング(CWT)を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:04:52Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Intuitive Fine-Tuning: Towards Simplifying Alignment into a Single Process [19.986235452236272]
Supervised Fine-Tuning (SFT) と Preference Optimization (PO) は、言語モデル(LM)を事前学習後の人間の好みに合わせるための重要なプロセスである。
Intuitive Fine-Tuning (IFT)を導入し,SFTとPOをひとつのプロセスに統合する。
IFT は SFT やいくつかの典型的な PO メソッドと相容れないか、それ以上に優れている。
論文 参考訳(メタデータ) (2024-05-20T08:23:28Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。