論文の概要: SmolVLM: Redefining small and efficient multimodal models
- arxiv url: http://arxiv.org/abs/2504.05299v1
- Date: Mon, 07 Apr 2025 17:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 19:54:57.124054
- Title: SmolVLM: Redefining small and efficient multimodal models
- Title(参考訳): SmolVLM:小型かつ効率的なマルチモーダルモデルの再定義
- Authors: Andrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf,
- Abstract要約: SmolVLMは、資源効率のよい推論のために特別に設計されたコンパクトなマルチモーダルモデルである。
メモリフットプリントが最小限である画像およびビデオタスクにおいて,大幅なパフォーマンス向上をもたらす重要な設計選択を特定する。
この結果から,戦略的アーキテクチャ最適化,積極的なトークン化,厳密なトレーニングデータによりマルチモーダル性能が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 8.849350918179752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (VLMs) deliver exceptional performance but require significant computational resources, limiting their deployment on mobile and edge devices. Smaller VLMs typically mirror design choices of larger models, such as extensive image tokenization, leading to inefficient GPU memory usage and constrained practicality for on-device applications. We introduce SmolVLM, a series of compact multimodal models specifically engineered for resource-efficient inference. We systematically explore architectural configurations, tokenization strategies, and data curation optimized for low computational overhead. Through this, we identify key design choices that yield substantial performance gains on image and video tasks with minimal memory footprints. Our smallest model, SmolVLM-256M, uses less than 1GB GPU memory during inference and outperforms the 300-times larger Idefics-80B model, despite an 18-month development gap. Our largest model, at 2.2B parameters, rivals state-of-the-art VLMs consuming twice the GPU memory. SmolVLM models extend beyond static images, demonstrating robust video comprehension capabilities. Our results emphasize that strategic architectural optimizations, aggressive yet efficient tokenization, and carefully curated training data significantly enhance multimodal performance, facilitating practical, energy-efficient deployments at significantly smaller scales.
- Abstract(参考訳): VLM(Large Vision-Language Models)は、優れたパフォーマンスを提供するが、重要な計算資源を必要とし、モバイルおよびエッジデバイスへのデプロイメントを制限する。
より小さなVLMは、広い画像トークン化のようなより大きなモデルの設計選択を反映し、非効率なGPUメモリ使用率とデバイス上のアプリケーションに対する制約付き実用性をもたらす。
SmolVLMは、資源効率のよい推論のために特別に設計されたコンパクトなマルチモーダルモデルである。
低計算オーバーヘッドに最適化されたアーキテクチャ構成、トークン化戦略、データキュレーションを体系的に検討する。
これにより、メモリフットプリントが最小限に抑えられた画像やビデオのタスクにおいて、大幅なパフォーマンス向上をもたらす重要な設計選択が特定される。
私たちの最小のモデルであるSmolVLM-256Mは、推論中に1GB未満のGPUメモリを使用し、18ヶ月の開発ギャップにもかかわらず、300倍のIdefics-80Bモデルより優れています。
我々の最大のモデルは2.2Bパラメータであり、GPUメモリを2倍消費する最先端のVLMと競合する。
SmolVLMモデルは静的イメージを超えて拡張され、堅牢なビデオ理解能力を示す。
その結果, 戦略的アーキテクチャ最適化, 積極的なトークン化, 注意深く計算されたトレーニングデータにより, マルチモーダル性能が著しく向上し, 実用的でエネルギー効率のよい展開が極めて少ないことが強調された。
関連論文リスト
- DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - CalibQuant: 1-Bit KV Cache Quantization for Multimodal LLMs [45.77132019859689]
CalibQuantは、メモリと計算オーバーヘッドの両方を大幅に削減する、視覚的な量子化戦略である。
InternVLモデルのスループットは10倍に向上する。
論文 参考訳(メタデータ) (2025-02-15T05:08:01Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - LV-UNet: A Lightweight and Vanilla Model for Medical Image Segmentation [16.604140484767377]
本稿では,事前学習したMobileNetv3-Largeのバックボーンを活用し,モジュールを組み込んだ軽量かつバニラモデルであるLVUNetを紹介する。
ISIC 2016、BUSI、CVCClinicDB、CVCColonDB、KvairSEGデータセットの実験結果は、パフォーマンスと計算負荷のトレードオフをより良く示している。
論文 参考訳(メタデータ) (2024-08-29T20:19:10Z) - Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches [64.42735183056062]
大規模言語モデル(LLM)は、特殊モデルから多目的基礎モデルへと移行してきた。
LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。
論文 参考訳(メタデータ) (2024-08-20T09:42:17Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Joint Adaptive Representations for Image-Language Learning [59.40890927221377]
画像言語学習のためのレシピを提案し、より大きくて高価なものよりも優れたモデルを作成し、しばしば桁違いに大きなデータセットで訓練する。
我々の重要な発見は、適応的かつ反復的にマルチモーダルな特徴を融合させる、コンパクトな視覚と言語表現の連成学習である。
たった4000万のトレーニング例と39のGFLOPで、私たちの軽量モデルは、2~20倍以上のFLOPの最先端モデルで、さらに大きなデータセットを使用して、1B近くのトレーニング例で何倍もパフォーマンスを上げています。
論文 参考訳(メタデータ) (2023-05-31T15:02:02Z) - MiniVLM: A Smaller and Faster Vision-Language Model [76.35880443015493]
MiniVLMは視覚特徴抽出器と視覚言語融合モジュールの2つのモジュールで構成されている。
MiniVLMはモデルサイズを73%$、推論時間コストを94%$に削減する。
論文 参考訳(メタデータ) (2020-12-13T03:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。