論文の概要: NVLM: Open Frontier-Class Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2409.11402v2
- Date: Tue, 22 Oct 2024 23:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 20:01:55.219702
- Title: NVLM: Open Frontier-Class Multimodal LLMs
- Title(参考訳): NVLM:オープンフロンティアクラスのマルチモーダルLCM
- Authors: Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuolin Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping,
- Abstract要約: NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
- 参考スコア(独自算出の注目度): 64.00053046838225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce NVLM 1.0, a family of frontier-class multimodal large language models (LLMs) that achieve state-of-the-art results on vision-language tasks, rivaling the leading proprietary models (e.g., GPT-4o) and open-access models (e.g., Llama 3-V 405B and InternVL 2). Remarkably, NVLM 1.0 shows improved text-only performance over its LLM backbone after multimodal training. In terms of model design, we perform a comprehensive comparison between decoder-only multimodal LLMs (e.g., LLaVA) and cross-attention-based models (e.g., Flamingo). Based on the strengths and weaknesses of both approaches, we propose a novel architecture that enhances both training efficiency and multimodal reasoning capabilities. Furthermore, we introduce a 1-D tile-tagging design for tile-based dynamic high-resolution images, which significantly boosts performance on multimodal reasoning and OCR-related tasks. Regarding training data, we meticulously curate and provide detailed information on our multimodal pretraining and supervised fine-tuning datasets. Our findings indicate that dataset quality and task diversity are more important than scale, even during the pretraining phase, across all architectures. Notably, we develop production-grade multimodality for the NVLM-1.0 models, enabling them to excel in vision-language tasks while maintaining and even improving text-only performance compared to their LLM backbones. To achieve this, we craft and integrate a high-quality text-only dataset into multimodal training, alongside a substantial amount of multimodal math and reasoning data, leading to enhanced math and coding capabilities across modalities. To advance research in the field, we release the model weights at https://huggingface.co/nvidia/NVLM-D-72B and will open-source the training code for the community soon.
- Abstract(参考訳): NVLM 1.0は、フロンティアクラスのマルチモーダル大言語モデル(LLM)のファミリーであり、視覚言語タスクにおける最先端の成果を達成し、主要なプロプライエタリモデル(例えば、GPT-4o)とオープンアクセスモデル(例えば、Llama 3-V 405B、InternVL 2)に匹敵する。
興味深いことに、NVLM 1.0はマルチモーダルトレーニング後のLLMバックボーンよりもテキストのみのパフォーマンスが改善されている。
モデル設計では,デコーダのみのマルチモーダルLLM (eg , LLaVA) とクロスアテンションベースモデル (eg , Flamingo) の総合的な比較を行う。
両アプローチの長所と短所に基づいて,学習効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
さらに,タイルベースの動的高解像度画像に対する1次元タイルタグ付け設計を導入し,マルチモーダル推論やOCR関連タスクの性能を大幅に向上させる。
トレーニングデータに関しては、マルチモーダル事前学習と教師付き微調整データセットの詳細情報を慎重にキュレートし、提供します。
この結果から,データセットの品質とタスクの多様性は,事前学習フェーズにおいても,すべてのアーキテクチャにわたって,スケールよりも重要であることが示唆された。
特に,NVLM-1.0モデルのプロダクショングレードのマルチモーダリティを開発し,LLMのバックボーンに比べてテキストのみの性能を維持・改善しつつ,視覚言語タスクの卓越性を向上する。
これを実現するために、高品質なテキストのみのデータセットを多モーダルトレーニングに組み込んで、大量のマルチモーダル数学や推論データと組み合わせることで、モーダルをまたいだ数学やコーディング能力の強化を実現した。
この分野の研究を進めるため、私たちはhttps://huggingface.co/nvidia/NVLM-D-72Bでモデルウェイトをリリースし、まもなくコミュニティ向けのトレーニングコードをオープンソース化します。
関連論文リスト
- Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [49.407311947143825]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
また,Mono-InternVLの視覚能力,すなわち内因性視覚前訓練(EViP)を最大化するための革新的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。