論文の概要: Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Model
- arxiv url: http://arxiv.org/abs/2412.01282v1
- Date: Mon, 02 Dec 2024 08:55:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:56.483533
- Title: Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Model
- Title(参考訳): Align-KD:モバイルビジョンランゲージモデルのためのクロスモーダルアライメント知識の蒸留
- Authors: Qianhan Feng, Wenshuo Li, Tong Lin, Xinghao Chen,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダルタスクに強力な理解と推論能力をもたらす。
そこで我々は,浅層で発生するクロスモーダルマッチングを学生モデルで学習するためのAlign-KD法を提案する。
Align-KDの指導のもと、1.7B MobileVLM V2モデルは、訓練損失の軽さで7B教師モデルから豊富な知識を学ぶことができる。
- 参考スコア(独自算出の注目度): 11.010846827099936
- License:
- Abstract: Vision-Language Models (VLMs) bring powerful understanding and reasoning capabilities to multimodal tasks. Meanwhile, the great need for capable aritificial intelligence on mobile devices also arises, such as the AI assistant software. Some efforts try to migrate VLMs to edge devices to expand their application scope. Simplifying the model structure is a common method, but as the model shrinks, the trade-off between performance and size becomes more and more difficult. Knowledge distillation (KD) can help models improve comprehensive capabilities without increasing size or data volume. However, most of the existing large model distillation techniques only consider applications on single-modal LLMs, or only use teachers to create new data environments for students. None of these methods take into account the distillation of the most important cross-modal alignment knowledge in VLMs. We propose a method called Align-KD to guide the student model to learn the cross-modal matching that occurs at the shallow layer. The teacher also helps student learn the projection of vision token into text embedding space based on the focus of text. Under the guidance of Align-KD, the 1.7B MobileVLM V2 model can learn rich knowledge from the 7B teacher model with light design of training loss, and achieve an average score improvement of 2.0 across 6 benchmarks under two training subsets respectively. Code is available at: https://github.com/fqhank/Align-KD.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルタスクに強力な理解と推論能力をもたらす。
一方、モバイルデバイス上での有能な人工知能に対する大きなニーズは、AIアシスタントソフトウェアなどにも現れます。
いくつかの取り組みは、VLMをエッジデバイスに移行して、アプリケーションの範囲を広げようとしている。
モデル構造を単純化することは一般的な方法であるが、モデルが縮小するにつれて、性能とサイズの間のトレードオフがますます難しくなる。
知識蒸留(KD)は、モデルのサイズやデータ量を増やすことなく包括的な能力を向上させるのに役立つ。
しかし, 既存の大規模蒸留技術の多くは, シングルモーダル LLM の応用のみを考慮し, あるいは, 生徒のための新しいデータ環境を構築するために, 教師しか利用していない。
いずれの手法も、VLMにおける最も重要なクロスモーダルアライメント知識の蒸留を考慮していない。
そこで我々は,浅層で発生するクロスモーダルマッチングを学生モデルで学習するためのAlign-KD法を提案する。
教師はまた、学生がテキストの焦点に基づいてテキスト埋め込み空間に視覚トークンの投影を学習するのを手助けする。
Align-KDの指導のもと、1.7B MobileVLM V2モデルは7Bの教師モデルから訓練損失の軽量な設計で豊富な知識を習得し、それぞれ2つのトレーニングサブセットの下で6つのベンチマークで2.0の平均スコア改善を達成することができる。
コードは、https://github.com/fqhank/Align-KD.comで入手できる。
関連論文リスト
- Multi-Stage Knowledge Integration of Vision-Language Models for Continual Learning [79.46570165281084]
蒸留法における人間の学習過程をエミュレートするマルチステージ知識統合ネットワーク(MulKI)を提案する。
Mulkiは、イデオロギーの排除、新しいイデオロギーの追加、イデオロギーの排除、コネクティクスの作りという4つの段階を通じてこれを達成している。
提案手法は,下流タスク間の連続学習をサポートしながら,ゼロショット能力の維持における大幅な改善を示す。
論文 参考訳(メタデータ) (2024-11-11T07:36:19Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Leveraging Foundation Models via Knowledge Distillation in Multi-Object Tracking: Distilling DINOv2 Features to FairMOT [0.5999777817331317]
この研究は、知識蒸留を用いて、DINOv2と呼ばれる1つの基礎モデルを活用することを試みている。
その結果,提案手法は特定のシナリオの改善を示すが,本来のFairMOTモデルよりも常に優れているわけではないことが示唆された。
論文 参考訳(メタデータ) (2024-07-25T14:21:35Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Learning without Forgetting for Vision-Language Models [65.49600786387106]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。