論文の概要: MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders
- arxiv url: http://arxiv.org/abs/2501.01709v1
- Date: Fri, 03 Jan 2025 09:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:12:20.692524
- Title: MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders
- Title(参考訳): MoVE-KD:ビジュアルエンコーダを混合したVLMの知識蒸留
- Authors: Jiajun Cao, Yuan Zhang, Tao Huang, Ming Lu, Qizhe Zhang, Ruichuan An, Ningning MA, Shanghang Zhang,
- Abstract要約: 視覚エンコーダは視覚言語モデル(VLM)の基本コンポーネントである
近年の研究では、複数のエンコーダを単一のVLMに組み込んでおり、計算コストが大幅に増大している。
本稿では、複数の視覚エンコーダのユニークな習熟度を1つの効率的なエンコーダモデルに抽出する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 28.22099619211775
- License:
- Abstract: Visual encoders are fundamental components in vision-language models (VLMs), each showcasing unique strengths derived from various pre-trained visual foundation models. To leverage the various capabilities of these encoders, recent studies incorporate multiple encoders within a single VLM, leading to a considerable increase in computational cost. In this paper, we present Mixture-of-Visual-Encoder Knowledge Distillation (MoVE-KD), a novel framework that distills the unique proficiencies of multiple vision encoders into a single, efficient encoder model. Specifically, to mitigate conflicts and retain the unique characteristics of each teacher encoder, we employ low-rank adaptation (LoRA) and mixture-of-experts (MoEs) to selectively activate specialized knowledge based on input features, enhancing both adaptability and efficiency. To regularize the KD process and enhance performance, we propose an attention-based distillation strategy that adaptively weighs the different visual encoders and emphasizes valuable visual tokens, reducing the burden of replicating comprehensive but distinct features from multiple teachers. Comprehensive experiments on popular VLMs, such as LLaVA and LLaVA-NeXT, validate the effectiveness of our method. The code will be released.
- Abstract(参考訳): 視覚エンコーダは視覚言語モデル(VLM)の基本要素であり、それぞれが事前訓練された様々な視覚基盤モデルから派生した独自の強みを示す。
これらのエンコーダの様々な機能を活用するため、近年の研究は複数のエンコーダを単一のVLMに組み込んでおり、計算コストが大幅に増大している。
本稿では,マルチビジョンエンコーダのユニークな習熟度を1つの効率的なエンコーダモデルに抽出する新しいフレームワークであるMixture-of-Visual-Encoder Knowledge Distillation (MoVE-KD)を提案する。
具体的には,各教師エンコーダのコンフリクトを緩和し,各教師エンコーダのユニークな特性を維持するために,ローランク適応(LoRA)とミキシング・オブ・エキスパート(MoE)を用いて,入力特徴に基づく特殊知識を選択的に活性化し,適応性と効率の両立を図る。
KDプロセスの標準化と性能向上のために,異なる視覚エンコーダを適応的に重み付けし,有意義な視覚トークンを強調した注意ベースの蒸留戦略を提案する。
LLaVA や LLaVA-NeXT などの一般的な VLM に関する総合実験を行い,本手法の有効性を検証した。
コードはリリースされます。
関連論文リスト
- VLM-KD: Knowledge Distillation from VLM for Long-Tail Visual Recognition [25.927771583678272]
市販の視覚言語モデル(VLM)から知識を抽出する効果的な方法を提案する。
我々は、新しいテキストの監督を生成し、自由形式のテキストを視覚エンコーダに蒸留するフレームワークを開発する。
我々の知る限り、本研究は、市販のVLMによって生成されたテキスト管理を初めて活用し、無作為な視覚エンコーダに適用するものである。
論文 参考訳(メタデータ) (2024-08-29T22:13:29Z) - Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders [89.38717274524681]
本研究では,視覚エンコーダと解像度の混合を用いたマルチモーダル大言語モデル(MLLM)の設計空間について検討する。
我々の発見は、様々な既存の戦略に共通するいくつかの基本原則を明らかにし、合理化されているが効果的な設計アプローチへと繋がる。
その結果生まれたMLLMのファミリーであるEagleは、MLLMベンチマークで他の主要なオープンソースモデルを上回っている。
論文 参考訳(メタデータ) (2024-08-28T17:59:31Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - MoVA: Adapting Mixture of Vision Experts to Multimodal Context [38.8308841469793]
我々は,タスク固有の視覚エキスパートを適応的にルーティングし,粗い機構で融合する,強力で斬新なMLLMであるMoVAを提案する。
粗い段階では、最適な視覚専門家を動的に選択するためのコンテキスト対応の専門家ルーティング戦略を設計する。
粒度の細かい段階では、タスク固有の知識を抽出して融合するために、Mix-of-vision-Expert Adapter (MoV-Adapter) を精巧に実施する。
論文 参考訳(メタデータ) (2024-04-19T17:59:48Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文 参考訳(メタデータ) (2023-03-30T13:42:58Z) - String-based Molecule Generation via Multi-decoder VAE [56.465033997245776]
可変オートエンコーダ(VAE)による文字列型分子生成の問題点について検討する。
本稿では,そのタスクに対するVAEの性能を改善するための,シンプルで効果的なアイデアを提案する。
実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。
論文 参考訳(メタデータ) (2022-08-23T03:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。