論文の概要: VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation
- arxiv url: http://arxiv.org/abs/2510.23497v1
- Date: Mon, 27 Oct 2025 16:32:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.619977
- Title: VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation
- Title(参考訳): VOLD: オンデマンド蒸留によるLCMからビジョンランゲージモデルへの変換
- Authors: Walid Bousselham, Hilde Kuehne, Cordelia Schmid,
- Abstract要約: VOLDは、テキストのみの教師モデルからVLMの学生モデルに推論機能を移行するためのフレームワークである。
VOLDはベースラインモデルよりも大幅に優れ,最先端技術よりもマージンが向上していることを示す。
- 参考スコア(独自算出の注目度): 67.98620973023709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training vision-language models (VLMs) for complex reasoning remains a challenging task, i.a. due to the scarcity of high-quality image-text reasoning data. Conversely, text-based reasoning resources are abundant and scalable, but it is still an open question how to leveraging them for VLM reasoning. To address this problem, we propose VOLD, a framework to transfer reasoning capabilities from text-only teacher models to VLM student models. To this end, VOLD combines reinforcement learning via Group Relative Policy Optimization (GRPO) with on-policy distillation, which allows the student reasoning traces to be guided by the teacher model, resulting in a significant gain over using GRPO alone. We further show that a cold-start alignment is essential for an effective transfer during the online training phase in this scenario and that without sufficient distributional alignment between teacher and student, on-policy distillation fails to provide meaningful guidance. We evaluate VOLD across diverse benchmarks including MMMU-Pro, MathVision, MathVista, and LogicVista, showing that VOLD outperforms the baseline model significantly and improves over the state of the art by a margin. Our ablation shows the importance of a cold-start alignment via SFT for on-policy distillation with a text-only teacher.
- Abstract(参考訳): 複雑な推論のための視覚言語モデル(VLM)の訓練は、高品質な画像テキスト推論データが不足しているため、依然として難しい課題である。
逆に、テキストベースの推論リソースは豊富で拡張性があるが、VLM推論にどのように活用するかは、未解決の問題である。
そこで本研究では,テキストのみの教師モデルからVLM学生モデルへ推論機能を伝達するフレームワークVOLDを提案する。
この目的のために、VOLDは、グループ相対政策最適化(GRPO)による強化学習とオンライン蒸留を組み合わせることで、教師モデルによって学生の推論トレースをガイドすることができる。
さらに, このシナリオでは, オンライン研修期間中の効果的な移行には冷間開始アライメントが不可欠であり, 教師と学生の十分な分散アライメントがなければ, オンライン蒸留は意味のあるガイダンスを提供することができないことを示す。
我々は、MMMU-Pro、MathVision、MathVista、LogicVistaなどの様々なベンチマークでVOLDを評価し、VOLDがベースラインモデルを大幅に上回っており、最先端技術よりもマージンが向上していることを示す。
我々のアブレーションは、テキストのみの教師によるオンライン蒸留における、SFTによる冷間開始アライメントの重要性を示している。
関連論文リスト
- Online In-Context Distillation for Low-Resource Vision Language Models [16.3054668860198]
小さな視覚言語モデル(VLM)は効率的だが、デプロイメント領域におけるより大きなモデルとのパフォーマンスギャップを埋めるためには、通常、コストのかかる微調整が必要である。
In-Context Distillation (ICD) 手法を提案する。この手法では,小さなVLMが推論時により強力な教師モデルと協調する。
本手法は,教師注記の少ない小モデル(最大33%)の性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-20T21:35:17Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Leveraging Vision-Language Models for Improving Domain Generalization in
Image Classification [35.277880733198586]
VLM(Vision-Language Models)は、大量の画像とテキストのペアで訓練され、複数のデータ分布に顕著な一般化をもたらす。
本稿では,教師モデルの視覚と言語モダリティを,事前学習した学生モデルの視覚のモダリティと整合させるビジョン・ランゲージ・トゥ・ビジョン(VL2V-ADiP)を提案する。
これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。
論文 参考訳(メタデータ) (2023-10-12T11:59:54Z) - Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding [6.798129852396113]
視覚言語モデル(VLM)における合成推論を改善するためのシンプルで効果的な手法を提案する。
本手法は,標準画像テキストコントラスト学習フレームワークを改良・拡張することで,利用可能なデータセットをより活用する。
CLIPと統合すると、最先端のベースラインよりも顕著な改善が得られます。
論文 参考訳(メタデータ) (2023-06-15T03:26:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。