論文の概要: Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.22238v1
- Date: Tue, 23 Dec 2025 14:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.920411
- Title: Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおけるマスキング教師と強化学生
- Authors: Byung-Kwan Lee, Yu-Chiang Frank Wang, Ryo Hachiuma,
- Abstract要約: 大規模視覚言語モデル(VLM)は近年,目覚ましいマルチモーダル理解を実現している。
これにより、強力な大規模教師から効率的に学習できるコンパクトで有能なVLMの必要性が高まる。
マスク・プログレッシブ・強化学習の枠組みであるマスターズ(マスク教師と強化学生)を提案する。
- 参考スコア(独自算出の注目度): 50.619420197124356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision-language models (VLMs) have recently achieved remarkable multimodal understanding, but their massive size makes them impractical for deployment on mobile or edge devices. This raises the need for compact yet capable VLMs that can efficiently learn from powerful large teachers. However, distilling knowledge from a large teacher to a small student remains challenging due to their large size gap: the student often fails to reproduce the teacher's complex, high-dimensional representations, leading to unstable learning and degraded performance. To address this, we propose Masters (Masking Teacher and Reinforcing Student), a mask-progressive reinforcement learning (RL) distillation framework. Masters first masks non-dominant weights of the teacher to reduce unnecessary complexity, then progressively restores the teacher by gradually increasing its capacity during training. This strategy allows the student to learn richer representations from the teacher in a smooth and stable manner. To further refine knowledge transfer, Masters integrates an offline RL stage with two complementary rewards: an accuracy reward that measures the correctness of the generated responses, and a distillation reward that quantifies the ease of transferring responses from teacher to student. Unlike online think-answer RL paradigms that are computationally expensive and generate lengthy responses, our offline RL leverages pre-generated responses from masked teachers. These provide rich yet efficient guidance, enabling students to achieve strong performance without requiring the think-answer process.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、最近、目覚ましいマルチモーダル理解を達成したが、その巨大なサイズにより、モバイルやエッジデバイスへのデプロイには実用的ではない。
これにより、強力な大規模教師から効率的に学習できるコンパクトで有能なVLMの必要性が高まる。
しかし、大きな教師から小さな学生への知識の蒸留は、その大きなギャップのために難しいままであり、学生は、しばしば教師の複雑な高次元表現の再現に失敗し、不安定な学習と劣化したパフォーマンスに繋がる。
そこで我々は,マスク推進型強化学習(RL)蒸留フレームワークであるMasters (Masking Teacher and Reinforcecing Students)を提案する。
マスターはまず、不要な複雑さを減らすために教師の非支配的な重みをマスクし、訓練中に徐々に能力を高めて、徐々に教師を回復させる。
この戦略により、生徒はスムーズで安定した方法で教師から豊かな表現を学ぶことができる。
知識伝達をさらに洗練するために、マスターズはオフラインのRLステージと、生成された応答の正確さを測定する精度報酬と、教師から学生への応答の伝達の容易さを定量化する蒸留報酬の2つの補完的な報酬を統合する。
オンラインのシンク・アンサーRLパラダイムが計算コストが高く、長文の応答を生成するのとは異なり、オフラインのRLはマスクされた教師からの事前の応答を活用する。
これらはリッチで効率的な指導を提供するので、学生は思考の仕方を必要とすることなく、強いパフォーマンスを達成できる。
関連論文リスト
- Enhancing Reasoning Capabilities in SLMs with Reward Guided Dataset Distillation [0.0]
本稿では,報酬誘導型データセット蒸留フレームワークAdvDistillを提案する。
我々は,教師からの複数の世代(応答)を各プロンプトに利用し,ルールベースの検証に基づいて報酬を割り当てる。
これらの様々な、通常は分散された報酬は、学生モデルを訓練する際の重みとなる。
論文 参考訳(メタデータ) (2025-06-25T20:07:47Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - Multi-Teacher Knowledge Distillation with Reinforcement Learning for Visual Recognition [24.293448609592147]
マルチ教師知識蒸留(Multi-Teacher Knowledge Distillation, KD)は、教師プールから学生ネットワークへ多様な知識を伝達する。
本稿では,MTKD-RL(Multi-Teacher Knowledge Distillation with Reinforcement Learning)を提案する。
論文 参考訳(メタデータ) (2025-02-22T09:31:24Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - The Role of Masking for Efficient Supervised Knowledge Distillation of Vision Transformers [14.467509261354458]
本稿では,ViT蒸留の監督コストを削減するための簡易な枠組みを開発する。
入力トークンをマスキングすることで、教師のパラメータやアーキテクチャを変更することなく、マスクされたトークンに関連する計算をスキップすることができる。
学生の注意点が最も低いマスキングパッチは極めて有効であり,教師のFLOPの最大50%を学生の精度の低下なしに節約できることがわかった。
論文 参考訳(メタデータ) (2023-02-21T07:48:34Z) - Representation Consolidation for Training Expert Students [54.90754502493968]
マルチヘッド多タスク蒸留法は,タスク固有の教師の表現を集約し,下流のパフォーマンスを向上させるのに十分であることを示す。
また,本手法では,複数のドメインで訓練された複数の教師の表現的知識を1つのモデルに組み合わせることができる。
論文 参考訳(メタデータ) (2021-07-16T17:58:18Z) - One Teacher is Enough? Pre-trained Language Model Distillation from
Multiple Teachers [54.146208195806636]
本稿では,事前学習型言語モデル圧縮のためのMT-BERTという多言語知識蒸留フレームワークを提案する。
MT-BERTは、複数の教師PLMから高品質な学生モデルを訓練できることを示す。
PLMの圧縮におけるMT-BERTの有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2021-06-02T08:42:33Z) - Densely Guided Knowledge Distillation using Multiple Teacher Assistants [5.169724825219126]
モデルサイズを徐々に小さくする複数の教師アシスタントを用いた知識蒸留法を提案する。
また,ミニバッチ毎に,教師や教師のアシスタントがランダムにドロップされるような授業も設計する。
これは、学生ネットワークの教育効率を向上させるために、レギュラーライザとして機能する。
論文 参考訳(メタデータ) (2020-09-18T13:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。