Fugu-MT 論文翻訳(概要): NVILA: Efficient Frontier Visual Language Models

論文の概要: NVILA: Efficient Frontier Visual Language Models

arxiv url: http://arxiv.org/abs/2412.04468v1
Date: Thu, 05 Dec 2024 18:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:02.224106
Title: NVILA: Efficient Frontier Visual Language Models
Title（参考訳）: NVILA: 効率的なフロンティアビジュアル言語モデル
Authors: Zhijian Liu, Ligeng Zhu, Baifeng Shi, Zhuoyang Zhang, Yuming Lou, Shang Yang, Haocheng Xi, Shiyi Cao, Yuxian Gu, Dacheng Li, Xiuyu Li, Yunhao Fang, Yukang Chen, Cheng-Yu Hsieh, De-An Huang, An-Chieh Cheng, Vishwesh Nath, Jinyi Hu, Sifei Liu, Ranjay Krishna, Daguang Xu, Xiaolong Wang, Pavlo Molchanov, Jan Kautz, Hongxu Yin, Song Han, Yao Lu,
Abstract要約: 我々は、効率と精度の両方を最適化するために設計されたオープンビジュアル言語モデル(VLM)のファミリであるNVILAを紹介する。 VILA上に構築したモデルアーキテクチャは,まず空間分解能と時間分解能をスケールアップし,次に視覚トークンを圧縮することによって改善する。我々は、NVILAのライフサイクル全体を通して、トレーニングや微調整から展開までの効率を高めるための体系的な調査を行っている。
参考スコア（独自算出の注目度）: 90.38936112050857
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual language models (VLMs) have made significant advances in accuracy in recent years. However, their efficiency has received much less attention. This paper introduces NVILA, a family of open VLMs designed to optimize both efficiency and accuracy. Building on top of VILA, we improve its model architecture by first scaling up the spatial and temporal resolutions, and then compressing visual tokens. This "scale-then-compress" approach enables NVILA to efficiently process high-resolution images and long videos. We also conduct a systematic investigation to enhance the efficiency of NVILA throughout its entire lifecycle, from training and fine-tuning to deployment. NVILA matches or surpasses the accuracy of many leading open and proprietary VLMs across a wide range of image and video benchmarks. At the same time, it reduces training costs by 4.5X, fine-tuning memory usage by 3.4X, pre-filling latency by 1.6-2.2X, and decoding latency by 1.2-2.8X. We will soon make our code and models available to facilitate reproducibility.
Abstract（参考訳）: 近年,視覚言語モデル (VLM) の精度は著しく向上している。しかし、その効率性はあまり注目されていない。本稿では,効率と精度の両方を最適化するオープンなVLMのファミリであるNVILAを紹介する。 VILA上に構築したモデルアーキテクチャは,まず空間分解能と時間分解能をスケールアップし,次に視覚トークンを圧縮することによって改善する。この「スケールThen圧縮」アプローチにより、NVILAは高解像度の画像や長いビデオの処理を効率的に行うことができる。また、NVILAのライフサイクル全体を通して、トレーニングや微調整から展開までの効率を高めるための体系的な調査も行います。 NVILAは、様々な画像とビデオのベンチマークにおいて、多くの主要なオープンおよびプロプライエタリなVLMの精度を上回り、または上回っている。同時に、トレーニングコストの4.5倍、微調整メモリ使用率の3.4倍、プリフィルレイテンシの1.6-2.2倍、復号レイテンシの1.2-2.8倍を削減している。近いうちに、再現性を促進するためにコードとモデルを利用可能にします。

関連論文リスト

Video-XL-2: Towards Very Long-Video Understanding Through Task-Aware KV Sparsification [9.615466029246694]
Video-XL-2は、タスク対応KVスペーシングに基づく長時間ビデオ理解に優れたコスト効率を提供する新しいMLLMである。 NVIDIA A100(80GB)のGPUで1万フレーム以上を処理でき、数千フレームをほんの数秒で処理できる。
論文参考訳（メタデータ） (2025-06-24T01:19:56Z)
Flash-VL 2B: Optimizing Vision-Language Model Performance for Ultra-Low Latency and High Throughput [12.996955972977986]
Flash-VL 2Bは、リアルタイムアプリケーションのためにビジョンランゲージモデルを最適化するための新しいアプローチである。本稿では,Flash-VL 2B が高速かつ高精度に実現可能であることを示す。
論文参考訳（メタデータ） (2025-05-14T15:45:17Z)
SlowFast-LLaVA-1.5: A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding [70.84791600974337]
ビデオ大言語モデル(LLM)のファミリーであるSlowFast-LLaVA-1.5(SF-LLaVA-1.5)を紹介する。 2ストリームのSlowFastメカニズムを合理化されたトレーニングパイプラインに組み込む。我々は、公開データセットのみを慎重にキュレートしたデータ混合を用いて、共同でビデオイメージトレーニングを行う。
論文参考訳（メタデータ） (2025-03-24T17:59:07Z)
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T21:53:11Z)
NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文参考訳（メタデータ） (2024-09-17T17:59:06Z)
VisualRWKV: Exploring Recurrent Neural Networks for Visual Language Models [10.272476734387977]
線形RNNモデルのマルチモーダル学習タスクへの最初の応用であるVisualRWKVを紹介する。モデリング能力を高めるために,データ依存の再現とサンドイッチプロンプトを提案する。 VisualRWKVは、様々なベンチマークでLLaVA-1.5のようなTransformerベースのモデルと比較して、競争力がある。
論文参考訳（メタデータ） (2024-06-19T09:07:31Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning [19.354515754130592]
我々は,大規模な視覚言語モデルをより小さく,より速く,より正確なものに圧縮する蒸留精錬フレームワークを導入する。 EfficientVLMは、6つの視覚層、3つのテキスト層、3つのモーダル融合層からなる高速かつ正確な視覚言語モデルである。効率的なVLMは、教師モデルの98.4%のパフォーマンスを維持し、推論速度を2.2倍に加速する。
論文参考訳（メタデータ） (2022-10-14T13:26:41Z)
EfficientNetV2: Smaller Models and Faster Training [91.77432224225221]
本稿では,従来のモデルよりも高速な学習速度とパラメータ効率を有する畳み込みネットワークであるEfficientNetV2を紹介する。トレーニング対応のニューラルネットワークアーキテクチャ検索とスケーリングを組み合わせて、トレーニング速度とパラメータ効率を共同で最適化します。実験の結果,EfficientNetV2モデルは最先端モデルよりも最大6.8倍の速度でトレーニングできることがわかった。
論文参考訳（メタデータ） (2021-04-01T07:08:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。