論文の概要: OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference
- arxiv url: http://arxiv.org/abs/2412.11475v2
- Date: Wed, 25 Dec 2024 01:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:22:07.089133
- Title: OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference
- Title(参考訳): OmniVLM:効率的なオンデバイス推論のためのToken圧縮サブビリオンパラメータビジョンランゲージモデル
- Authors: Wei Chen, Zhiyuan Li, Shuo Xin,
- Abstract要約: デバイス上での効率的な推論のための視覚言語モデルであるOmniVLMを提案する。
視覚トークンシーケンスの長さを729から81に短縮し、計算オーバーヘッドを大幅に削減する。
968MのパラメータフットプリントでnanoLLAVAのような既存のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 9.78611123915888
- License:
- Abstract: We present OmniVLM, a sub-billion-parameter vision-language model for efficient on-device inference. OmniVLM introduces a token compression mechanism that reduces visual token sequence length from 729 to 81 tokens, significantly reducing computational overhead while preserving visual-semantic fidelity. Through a multi-stage training pipeline of pretraining, supervised fine-tuning, and minimal-edit Direct Preference Optimization (DPO), OmniVLM matches the performance of larger models. On multiple benchmarks including ScienceQA, POPE, and MMMU, OmniVLM outperforms existing baselines like nanoLLAVA within a 968M-parameter footprint. Empirical results on the same laptop demonstrate 9.1x faster time-to-first-token (0.75s vs 6.82s) and 1.5x higher decoding speed (29.41 vs 19.20 tokens/s) compared to nanoLLAVA, enabling efficient deployment on edge devices. The model weights can be accessed on huggingface: \url{https://huggingface.co/NexaAIDev/OmniVLM-968M}, and the inference examples can be find in Appendix B.
- Abstract(参考訳): デバイス上での効率的な推論のためのサブビリオンパラメータ・ビジョン言語モデルであるOmniVLMを提案する。
OmniVLMは、729から81のトークンに視覚トークンシーケンスの長さを短縮するトークン圧縮機構を導入している。
事前トレーニング、教師付き微調整、最小限の直接選好最適化(DPO)のマルチステージトレーニングパイプラインを通じて、OmniVLMはより大きなモデルのパフォーマンスにマッチする。
ScienceQA、POPE、MMMUを含む複数のベンチマークでは、OmniVLMは968MパラメータのフットプリントでnanoLLAVAのような既存のベースラインを上回っている。
同じラップトップ上での実験結果は、nanoLLAVAと比較して9.1倍高速なタイム・ツー・ファースト(0.75s vs 6.82s)と1.5倍高速なデコード速度(29.41 vs 19.20トークン/s)を示し、エッジデバイスへの効率的なデプロイを可能にした。
モデルウェイトは、ハグフェイスでアクセスすることができる: \url{https://huggingface.co/NexaAIDev/OmniVLM-968M} 。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル(VLM)では、視覚トークンは通常かなりの計算オーバーヘッドを消費する。
本稿では、余分なパラメータや微調整コストを伴わずに、SparseVLMと呼ばれる効率的なトレーニングフリートークン最適化機構を提案する。
実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - Token Turing Machines are Efficient Vision Models [2.8674240660437778]
ViTTM(Vision Token Turing Machines)を提案する。
ViTTMは、画像分類やセグメンテーションのような、連続しないコンピュータビジョンタスクのために設計されている。
論文 参考訳(メタデータ) (2024-09-11T20:50:41Z) - Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。
単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。
MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文 参考訳(メタデータ) (2024-05-29T17:39:42Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。