論文の概要: Empowering Small VLMs to Think with Dynamic Memorization and Exploration
- arxiv url: http://arxiv.org/abs/2506.23061v1
- Date: Sun, 29 Jun 2025 02:19:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.697491
- Title: Empowering Small VLMs to Think with Dynamic Memorization and Exploration
- Title(参考訳): 動的記憶と探索で考えるための小型VLM
- Authors: Jiazhen Liu, Yuchuan Deng, Long Chen,
- Abstract要約: 信頼性の高い思考能力を持つ小型ビジョンランゲージモデル(SVLM)は、基本的には困難である。
Supervised Fine-Tuning (SFT) や Reinforcement Learning with Verifiable Reward (RLVR) といった既存のトレーニングパラダイムは、ベースVLMにかなりの要求を課している。
我々は,各最適化ステップで(SFT経由)記憶モードと(RLVR経由)探索モードを動的に選択する新しいトレーニングパラダイムであるDyMEを提案する。
- 参考スコア(独自算出の注目度): 5.2613925143497635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empowering Small-scale Vision-Language Models (SVLMs) with reliable thinking capabilities remains fundamentally challenging due to their limited parameter capacity and weak instruction-following abilities. Existing training paradigms, including Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Reward (RLVR), impose substantial demands on the base VLM, exceeding the capabilities of SVLMs. Consequently, directly applying these paradigms to SVLMs often suffers from severe pseudo thinking traces and advantage collapse, ultimately undermining both thinking reliability and task performance. A natural solution is to combine SFT and RLVR, leveraging their complementarity to reduce the dependence on model capacity. However, the widely adopted two-stage training paradigm still performs poorly on SVLMs, as their tendency toward sub-optimal convergence hinders the trade-off and limits the benefits of the combination. To address this, we propose DyME, a novel training paradigm that Dynamically selects between Memorization (via SFT) and Exploration (via RLVR) modes at each optimization step, ensuring that every update contributes to the trade-off. Extensive experiments across diverse domains demonstrate that DyME consistently achieves this balance, and thus delivers substantial performance improvements. These results establish DyME as a practical and effective solution for empowering SVLMs with reliable thinking capabilities. GitHub: https://github.com/HKUST-LongGroup/DyME
- Abstract(参考訳): 信頼性の高い思考能力を持つ小型ビジョンランゲージモデル(SVLM)を組み込むことは、パラメータ容量の制限と命令追従能力の弱さにより、基本的に困難である。
Supervised Fine-Tuning (SFT) や Reinforcement Learning with Verifiable Reward (RLVR) といった既存の訓練パラダイムは、SVLMの能力を超え、ベースVLMにかなりの要求を課している。
したがって、これらのパラダイムをSVLMに直接適用することは、しばしば深刻な疑似思考の痕跡と利点の崩壊に悩まされ、最終的には思考信頼性とタスクパフォーマンスの両方を損なう。
自然な解決策は、SFTとRLVRを組み合わせることで、モデルキャパシティへの依存を減らすためにそれらの相補性を活用することである。
しかし、この2段階の訓練パラダイムは、副最適収束に対する傾向がトレードオフを妨げ、組み合わせの利点を制限しているため、SVLMでは依然として不十分である。
そこで我々は,各最適化ステップにおいて,(SFT経由)記憶モードと(RLVR経由)探索モードを動的に選択し,すべての更新がトレードオフに寄与することを保証する,新しいトレーニングパラダイムDyMEを提案する。
さまざまな領域にわたる大規模な実験は、DyMEがこのバランスを一貫して達成し、パフォーマンスが大幅に向上することを示した。
これらの結果から,DyME は SVLM を信頼性の高い思考能力で活用するための実用的で効果的なソリューションとして確立された。
GitHub:https://github.com/HKUST-LongGroup/DyME
関連論文リスト
- Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better [58.559985503802054]
視覚言語アクション(VLA)モデルは、エンド・ツー・エンドの学習とWebスケール視覚言語モデル(VLM)トレーニングからの意味知識の伝達を組み合わせたモデルである。
最も強力なVLMは数十億から数百億のパラメータを持ち、リアルタイム推論の障害となる。
近年のVLAモデルは、アクションエキスパートや連続出力ヘッドのような効率的な連続制御のための特別なモジュールを使用している。
このような専門家を内面的に含むと、トレーニング速度と知識伝達の両方に悪影響を及ぼすことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-29T17:40:09Z) - OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning [29.053899071144976]
マルチモーダルタスク間の深い理解と推論機能を備えた高度なMLLMであるOThink-MR1を提案する。
具体的には,動的Kulback-Leibler戦略を用いたグループ相対政策最適化を提案する。
GRPO-DはSFTよりも5.72%以上、GRPOより13.59%以上向上した。
論文 参考訳(メタデータ) (2025-03-20T12:22:18Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning [38.68600863590734]
変分部分決定強化学習(VSC-RL)という新しい枠組みを提案する。
VSC-RLは、新たな最適化目標であるサブゴールエビデンス・ロウアーバウンド(Subgoal Evidence Lower Bound)を用いて、変分サブゴール条件付きRL問題として決定問題を再構成する。
我々は,VSC-RLが性能保証を損なうことなく,学習効率を効率的に向上できることを理論的かつ実証的に実証した。
論文 参考訳(メタデータ) (2025-02-11T20:57:46Z) - Learning to Generate Research Idea with Dynamic Control [21.30777644522451]
大規模言語モデル (LLM) は仮説や研究のアイデアを生み出すことを約束している。
SFT(Supervised Fine-Tuning)とRL(Reinforcement Learning)を組み合わせた2段階のアプローチによる新しいフレームワークを提案する。
本フレームワークは, 新規性, 実現可能性, 有効性の間のトレードオフを動的にナビゲートすることで, 高品質な成果を達成し, 研究アイデアに対するバランスのとれたアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-19T08:28:18Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。
MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。
様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-01-29T08:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。