論文の概要: MiniVLM: A Smaller and Faster Vision-Language Model
- arxiv url: http://arxiv.org/abs/2012.06946v1
- Date: Sun, 13 Dec 2020 03:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:45:50.499042
- Title: MiniVLM: A Smaller and Faster Vision-Language Model
- Title(参考訳): MiniVLM: より小型で高速なビジョンランゲージモデル
- Authors: Jianfeng Wang and Xiaowei Hu and Pengchuan Zhang and Xiujun Li and
Lijuan Wang and Lei Zhang and Jianfeng Gao and Zicheng Liu
- Abstract要約: MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
- 参考スコア(独自算出の注目度): 76.35880443015493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-language (VL) studies have shown remarkable progress by
learning generic representations from massive image-text pairs with transformer
models and then fine-tuning on downstream VL tasks. While existing research has
been focused on achieving high accuracy with large pre-trained models, building
a lightweight model is of great value in practice but is less explored. In this
paper, we propose a smaller and faster VL model, MiniVLM, which can be
finetuned with good performance on various downstream tasks like its larger
counterpart. MiniVLM consists of two modules, a vision feature extractor and a
transformer-based vision-language fusion module. We design a Two-stage
Efficient feature Extractor (TEE), inspired by the one-stage EfficientDet
network, to significantly reduce the time cost of visual feature extraction by
$95\%$, compared to a baseline model. We adopt the MiniLM structure to reduce
the computation cost of the transformer module after comparing different
compact BERT models. In addition, we improve the MiniVLM pre-training by adding
$7M$ Open Images data, which are pseudo-labeled by a state-of-the-art
captioning model. We also pre-train with high-quality image tags obtained from
a strong tagging model to enhance cross-modality alignment. The large models
are used offline without adding any overhead in fine-tuning and inference. With
the above design choices, our MiniVLM reduces the model size by $73\%$ and the
inference time cost by $94\%$ while being able to retain $94-97\%$ of the
accuracy on multiple VL tasks. We hope that MiniVLM helps ease the use of the
state-of-the-art VL research for on-the-edge applications.
- Abstract(参考訳): 近年の視覚言語(VL)研究は、トランスフォーマーモデルを用いた大量の画像テキストペアから一般的な表現を学習し、下流のVLタスクを微調整することによって、顕著な進歩を示している。
既存の研究は、大規模な事前訓練モデルで高い精度を達成することに重点を置いているが、軽量モデルの構築は実際は非常に価値が高いが、調査は少ない。
本稿では,より小型で高速なVLモデルMiniVLMを提案する。
MiniVLMは、視覚特徴抽出器とトランスフォーマーベースの視覚言語融合モジュールの2つのモジュールで構成されている。
本研究では,1段階のEfficientDetネットワークにインスパイアされた2段階の高効率機能エクストラクタ(TEE)を設計し,ベースラインモデルと比較して視覚的特徴抽出の時間コストを95%削減する。
我々は、異なるコンパクトBERTモデルを比較した後、トランスモジュールの計算コストを削減するために、MiniLM構造を採用する。
さらに,最先端キャプションモデルによって擬似ラベル付けされた7M$ Open Imagesデータを追加することで,MiniVLMの事前学習を改善する。
また,強いタグ付けモデルから得られる高品質な画像タグを事前訓練し,モダリティ間のアライメントを向上させる。
大きなモデルは、微調整や推論のオーバーヘッドを追加することなくオフラインで使用される。
上記の設計選択により、MiniVLMはモデルサイズを7,3 %、推論時間コストを9,4 %、複数のVLタスクの精度を9,4-97 %に抑えることができる。
私たちはMiniVLMが最先端のアプリケーションに最先端のVL研究を簡単に利用できるようにすることを期待しています。
関連論文リスト
- Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation [32.406783380729024]
VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの学習プロセスを通じて、視覚運動制御と命令理解において顕著な可能性を示している。
現在のVLAモデルは、推論中に遅くなり、大量のロボットデータに対して広範な事前トレーニングを必要としているため、重大な課題に直面している。
既存のVLAモデルに対して2つのアドバンテージを提供する,TinyVLAと呼ばれる,コンパクトな視覚言語アクションモデルを導入した。
論文 参考訳(メタデータ) (2024-09-19T07:10:18Z) - Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - DIME-FM: DIstilling Multimodal and Efficient Foundation Models [72.1900621000677]
VLFM(Large Vision-Language Foundation Models)は、画像キャプチャペアの大規模なデータセットに基づいてトレーニングされる。
我々は,大容量VLFMに含まれる知識を,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を導入する。
結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセットで事前トレーニングされたCLIP-ViT-B/32モデルと競合する。
論文 参考訳(メタデータ) (2023-03-31T17:47:23Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。