論文の概要: CLGRPO: Reasoning Ability Enhancement for Small VLMs
- arxiv url: http://arxiv.org/abs/2506.18048v1
- Date: Sun, 22 Jun 2025 14:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.719833
- Title: CLGRPO: Reasoning Ability Enhancement for Small VLMs
- Title(参考訳): CLGRPO:小型VLMの推論能力向上
- Authors: Fanyi Wang, Binzhi Dong, Haotian Hu, Jinjin Xu, Zhiwang Zhang,
- Abstract要約: SVLM(Small Vision Language Models)は、一般にパラメータサイズが2B未満のモデルを指す。
本稿では,SVLMの推論能力を高めるために,インクリメンタルトレーニング戦略(Incrmental Training Strategy)と呼ばれるポストトレーニング後の最適化パラダイムを提案する。
実験により,本手法は1B SVLMの推論能力を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 4.551310348498266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small Vision Language Models (SVLMs) generally refer to models with parameter sizes less than or equal to 2B. Their low cost and power consumption characteristics confer high commercial value. However, their reasoning abilities are limited by the number of parameters. To address this issue, this paper proposes a post-training optimization paradigm called the Incremental Training Strategy to enhance the reasoning ability of SVLMs. Firstly, we constructed a Self-Supervised Chain-of-Thought (COT) Data Construction System, which leverages multiple LVLMs with 7B parameters or more to transform original data into COT data in a self-supervised manner. Our proposed Incremental Training Strategy consists of four stages. Stage 1 injects domain knowledge by performing Supervised Fine-Tuning (SFT) to the pretrained model on the COT data. Stage 2 aligns the COT data format by conducting a small amount of Group Relative Policy Optimization (GRPO) training constrained only by format rewards on the COT data. Stage 3 enhances reasoning ability by applying GRPO training on the COT data with constraints on both format and accuracy rewards. The resulting model shows significant improvement compared to the baseline. Stage 4 addresses the limited capacity of the SVLMs and the weak ability to capture complex patterns by proposing ClipLow GRPO (CLGRPO) to constrain the capture space of the training process. We conducted extensive comparative and ablation experiments on the abstract semantic recognition dataset EMOSet-118K. Experimental results demonstrate that our method significantly improves the reasoning ability of 1B SVLM. Compared to the baseline model fine-tuned on the original data, accuracy increased by 2.77 and recall by 0.69, achieving performance comparable to that of 8B models.
- Abstract(参考訳): SVLM(Small Vision Language Models)は、一般にパラメータサイズが2B未満のモデルを指す。
その低コストと消費電力特性は高い商業価値を反映している。
しかし、それらの推論能力はパラメータの数によって制限される。
本稿では,SVLMの推論能力を高めるために,インクリメンタルトレーニング戦略(Incrmental Training Strategy)と呼ばれるポストトレーニング後の最適化手法を提案する。
まず, 7B パラメータ以上の複数の LVLM を用いて, 自己教師型データに変換するセルフスーパービジョン型チェイン・オブ・ソート(COT)データ構築システムを構築した。
提案するインクリメンタルトレーニング戦略は,4段階からなる。
ステージ1は、COTデータ上で事前訓練されたモデルにスーパービジョンファインチューニング(SFT)を実行することでドメイン知識を注入する。
ステージ2は、COTデータに対する形式報酬のみに制約された、少数のグループ相対政策最適化(GRPO)トレーニングを実行することで、COTデータフォーマットを調整する。
ステージ3は、フォーマットと精度の両方に制約のあるCOTデータにGRPOトレーニングを適用することにより、推論能力を向上させる。
その結果,ベースラインに比べて有意に改善した。
ステージ4は、SVLMの限られた能力と、ClipLow GRPO(CLGRPO)を提案して複雑なパターンをキャプチャする弱い能力に対処する。
抽象的セマンティック認識データセットEMOSet-118Kについて比較およびアブレーション実験を行った。
実験により,本手法は1B SVLMの推論能力を大幅に向上することが示された。
元のデータに基づいて微調整されたベースラインモデルと比較して、精度は2.77倍、リコールは0.69倍に向上し、8Bモデルと同等の性能を達成した。
関連論文リスト
- Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Scaling Transformers for Discriminative Recommendation via Generative Pretraining [15.796591192359044]
オーバーフィット問題に対処するため,GPSD (textbfGenerative textbfPretraining for textbfScalable textbfDiscriminative Recommendation) というフレームワークを提案する。
産業規模のデータセットと一般公開データセットの両方で実施された大規模な実験は、GPSDの優れた性能を示している。
論文 参考訳(メタデータ) (2025-06-04T08:31:33Z) - Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math [135.1260782461186]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の形式推論能力を著しく向上させる
しかし、Small Language Models (SLM) における推論の改善は、モデル能力が限られているため、依然として困難である。
本研究では,(1)多種多様な蒸留長CoTデータによる大規模中等教育,(2)高品質長CoTデータによる微調整,(3)厳格な選好データセットを活用したロールアウトDPO,(4)検証リワードを用いた強化学習(RL)の4段階からなるSLMの体系的トレーニングレシピを提案する。
論文 参考訳(メタデータ) (2025-04-30T00:04:35Z) - Beyond QA Pairs: Assessing Parameter-Efficient Fine-Tuning for Fact Embedding in LLMs [0.0]
本稿では,質問応答対をFactualクラスとConceptualクラスに分類することで,微調整プロセスの改善に焦点をあてる。
2つの異なるLlama-2モデルはこれらの分類に基づいて微調整され、GPT-3.5 TurboやGeminiのような大型モデルを用いて評価される。
以上の結果から,概念データセットでトレーニングされたモデルは,実データセットでトレーニングしたモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-03T03:26:30Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。