Fugu-MT 論文翻訳(概要): OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference

論文の概要: OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference

arxiv url: http://arxiv.org/abs/2412.11475v1
Date: Mon, 16 Dec 2024 06:38:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:50:00.227014
Title: OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference
Title（参考訳）: OmniVLM:効率的なオンデバイス推論のためのToken圧縮サブビリオンパラメータビジョンランゲージモデル
Authors: Wei Chen, Zhiyuan Li, Shuo Xin,
Abstract要約: デバイス上での効率的な推論のための視覚言語モデルであるOmniVLMを提案する。視覚トークンシーケンスの長さを729から81に短縮し、計算オーバーヘッドを大幅に削減する。 968MのパラメータフットプリントでnanoLLAVAのような既存のベースラインを上回ります。
参考スコア（独自算出の注目度）: 9.78611123915888
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present OmniVLM, a sub-billion-parameter vision-language model for efficient on-device inference. OmniVLM introduces a token compression mechanism that reduces visual token sequence length from 729 to 81 tokens, significantly reducing computational overhead while preserving visual-semantic fidelity. Through a multi-stage training pipeline of pretraining, supervised fine-tuning, and minimal-edit Direct Preference Optimization (DPO), OmniVLM matches the performance of larger models. On multiple benchmarks including ScienceQA, POPE, and MMMU, OmniVLM outperforms existing baselines like nanoLLAVA within a 968M-parameter footprint. Empirical results on the same laptop demonstrate 9.1x faster time-to-first-token (0.75s vs 6.82s) and 1.5x higher decoding speed (29.41 vs 19.20 tokens/s) compared to nanoLLAVA, enabling efficient deployment on edge devices. The model weights can be accessed on huggingface: \url{https://huggingface.co/NexaAIDev/OmniVLM-968M}, and the inference examples can be find in Appendix B.
Abstract（参考訳）: デバイス上での効率的な推論のためのサブビリオンパラメータ・ビジョン言語モデルであるOmniVLMを提案する。 OmniVLMは、729から81のトークンに視覚トークンシーケンスの長さを短縮するトークン圧縮機構を導入している。事前トレーニング、教師付き微調整、最小限の直接選好最適化(DPO)のマルチステージトレーニングパイプラインを通じて、OmniVLMはより大きなモデルのパフォーマンスにマッチする。 ScienceQA、POPE、MMMUを含む複数のベンチマークでは、OmniVLMは968MパラメータのフットプリントでnanoLLAVAのような既存のベースラインを上回っている。同じラップトップ上での実験結果は、nanoLLAVAと比較して9.1倍高速なタイム・ツー・ファースト(0.75s vs 6.82s)と1.5倍高速なデコード速度(29.41 vs 19.20トークン/s)を示し、エッジデバイスへの効率的なデプロイを可能にした。モデルウェイトは、ハグフェイスでアクセスすることができる: \url{https://huggingface.co/NexaAIDev/OmniVLM-968M} 。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Mobile-VideoGPT: Fast and Accurate Video Understanding Language Model [60.171601995737646]
Mobile-VideoGPTはビデオ理解のための効率的なマルチモーダルフレームワークである。軽量なデュアルビジュアルエンコーダ、効率的なプロジェクタ、小型言語モデル(SLM)で構成されている。その結果,Mobile-VideoGPT-0.5Bは最大46トークンを毎秒生成できることがわかった。
論文参考訳（メタデータ） (2025-03-27T17:59:58Z)
Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [50.214593234229255]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。 Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文参考訳（メタデータ） (2025-03-21T09:46:31Z)
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models [36.0400717590138]
線形構造に基づく最初のマルチモーダル生成モデルであるOmniMambaを提案する。テキストと画像の両方を、統合された次世代の予測パラダイムで生成する。 JanusFlowと競合し、ベンチマークでShow-oを上回っている。
論文参考訳（メタデータ） (2025-03-11T17:59:46Z)
UniTok: A Unified Tokenizer for Visual Generation and Understanding [69.09699034036124]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文参考訳（メタデータ） (2025-02-27T17:47:01Z)
MiniMax-01: Scaling Foundation Models with Lightning Attention [59.38940023647236]
MiniMax-Text-01とMiniMax-VL-01は、より長いコンテキストを処理するのに優れた機能を提供する。 MiniMax-Text-01は、トレーニング中に最大100万のトークンに到達でき、推論時に400万のトークンを安価な価格で外挿できる。私たちのビジョン言語モデルであるMiniMax-VL-01は、512億のビジョン言語トークンによる継続的なトレーニングによって構築されます。
論文参考訳（メタデータ） (2025-01-14T18:50:05Z)
ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models [32.6661928486072]
ATP-LLaVAは、大規模言語モデル層ごとにインスタンス固有のトークンプルーニング比を適応的に決定する新しいアプローチである。提案手法は,7つの広く使用されているベンチマークにおいて,最小1.9%の劣化しかなく,パフォーマンスを維持しながら平均トークン数を75%削減する。
論文参考訳（メタデータ） (2024-11-30T11:42:35Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。 TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。 TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文参考訳（メタデータ） (2024-10-01T09:18:56Z)
Token Turing Machines are Efficient Vision Models [2.8674240660437778]
ViTTM(Vision Token Turing Machines)を提案する。 ViTTMは、画像分類やセグメンテーションのような、連続しないコンピュータビジョンタスクのために設計されている。
論文参考訳（メタデータ） (2024-09-11T20:50:41Z)
Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。 MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文参考訳（メタデータ） (2024-05-29T17:39:42Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文参考訳（メタデータ） (2023-12-28T08:21:24Z)
VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking [57.552798046137646]
Video masked autoencoder(ビデオマスクオートエンコーダ)は、ビデオ基礎モデルを構築するための、スケーラブルで汎用的な自己監督型プレトレーナーである。我々は10億のパラメータを持つビデオViTモデルのトレーニングに成功した。
論文参考訳（メタデータ） (2023-03-29T14:28:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。