論文の概要: OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference
- arxiv url: http://arxiv.org/abs/2412.11475v1
- Date: Mon, 16 Dec 2024 06:38:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:09.055899
- Title: OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference
- Title(参考訳): OmniVLM:効率的なオンデバイス推論のためのToken圧縮サブビリオンパラメータビジョンランゲージモデル
- Authors: Wei Chen, Zhiyuan Li, Shuo Xin,
- Abstract要約: デバイス上での効率的な推論のための視覚言語モデルであるOmniVLMを提案する。
視覚トークンシーケンスの長さを729から81に短縮し、計算オーバーヘッドを大幅に削減する。
968MのパラメータフットプリントでnanoLLAVAのような既存のベースラインを上回ります。
- 参考スコア(独自算出の注目度): 9.78611123915888
- License:
- Abstract: We present OmniVLM, a sub-billion-parameter vision-language model for efficient on-device inference. OmniVLM introduces a token compression mechanism that reduces visual token sequence length from 729 to 81 tokens, significantly reducing computational overhead while preserving visual-semantic fidelity. Through a multi-stage training pipeline of pretraining, supervised fine-tuning, and minimal-edit Direct Preference Optimization (DPO), OmniVLM matches the performance of larger models. On multiple benchmarks including ScienceQA, POPE, and MMMU, OmniVLM outperforms existing baselines like nanoLLAVA within a 968M-parameter footprint. Empirical results on the same laptop demonstrate 9.1x faster time-to-first-token (0.75s vs 6.82s) and 1.5x higher decoding speed (29.41 vs 19.20 tokens/s) compared to nanoLLAVA, enabling efficient deployment on edge devices. The model weights can be accessed on huggingface: \url{https://huggingface.co/NexaAIDev/OmniVLM-968M}, and the inference examples can be find in Appendix B.
- Abstract(参考訳): デバイス上での効率的な推論のためのサブビリオンパラメータ・ビジョン言語モデルであるOmniVLMを提案する。
OmniVLMは、729から81のトークンに視覚トークンシーケンスの長さを短縮するトークン圧縮機構を導入している。
事前トレーニング、教師付き微調整、最小限の直接選好最適化(DPO)のマルチステージトレーニングパイプラインを通じて、OmniVLMはより大きなモデルのパフォーマンスにマッチする。
ScienceQA、POPE、MMMUを含む複数のベンチマークでは、OmniVLMは968MパラメータのフットプリントでnanoLLAVAのような既存のベースラインを上回っている。
同じラップトップ上での実験結果は、nanoLLAVAと比較して9.1倍高速なタイム・ツー・ファースト(0.75s vs 6.82s)と1.5倍高速なデコード速度(29.41 vs 19.20トークン/s)を示し、エッジデバイスへの効率的なデプロイを可能にした。
モデルウェイトは、ハグフェイスでアクセスすることができる: \url{https://huggingface.co/NexaAIDev/OmniVLM-968M} 。
関連論文リスト
- MiniMax-01: Scaling Foundation Models with Lightning Attention [59.38940023647236]
MiniMax-Text-01とMiniMax-VL-01は、より長いコンテキストを処理するのに優れた機能を提供する。
MiniMax-Text-01は、トレーニング中に最大100万のトークンに到達でき、推論時に400万のトークンを安価な価格で外挿できる。
私たちのビジョン言語モデルであるMiniMax-VL-01は、512億のビジョン言語トークンによる継続的なトレーニングによって構築されます。
論文 参考訳(メタデータ) (2025-01-14T18:50:05Z) - ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models [32.6661928486072]
ATP-LLaVAは、大規模言語モデル層ごとにインスタンス固有のトークンプルーニング比を適応的に決定する新しいアプローチである。
提案手法は,7つの広く使用されているベンチマークにおいて,最小1.9%の劣化しかなく,パフォーマンスを維持しながら平均トークン数を75%削減する。
論文 参考訳(メタデータ) (2024-11-30T11:42:35Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation [21.242398582282522]
視覚誘導型オープンドメイン音声生成のための新しいフレームワークであるMDSGenを紹介する。
MDSGenはマスク付き拡散変換器を採用し、事前訓練された拡散モデルに頼らずに効率的な生成を容易にする。
ベンチマークVGGSoundデータセットから評価すると、最小のモデル(5Mパラメータ)は9.7.9$%のアライメント精度を実現している。
我々のより大きなモデル(131Mパラメータ)は、ほぼ99$%の精度に到達し、6.5times$より少ないパラメータを必要とします。
論文 参考訳(メタデータ) (2024-10-03T01:23:44Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - Token Turing Machines are Efficient Vision Models [3.1560513857564834]
ViTTM(Vision Token Turing Machines)を提案する。
ViTTMは、画像分類やセグメンテーションのような、連続しないコンピュータビジョンタスクのために設計されている。
論文 参考訳(メタデータ) (2024-09-11T20:50:41Z) - Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。
単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。
MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文 参考訳(メタデータ) (2024-05-29T17:39:42Z) - An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。
本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文 参考訳(メタデータ) (2024-03-11T14:35:32Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z) - VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。
我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文 参考訳(メタデータ) (2023-03-29T14:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。