論文の概要: InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks
- arxiv url: http://arxiv.org/abs/2312.14238v1
- Date: Thu, 21 Dec 2023 18:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 17:00:10.335547
- Title: InternVL: Scaling up Vision Foundation Models and Aligning for Generic
Visual-Linguistic Tasks
- Title(参考訳): InternVL:視覚基礎モデルのスケールアップとジェネリック視覚言語課題への適応
- Authors: Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing,
Zhong Muyan, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu,
Yu Qiao, Jifeng Dai
- Abstract要約: 視覚と視覚言語の基礎モデルはマルチモーダルAGIの重要な要素である。
本研究では,視覚基礎モデルを60億のパラメータにスケールアップする大規模視覚基礎モデル(InternVL)を設計する。
このモデルは、視覚知覚タスクにおける最先端のパフォーマンスを広く適用し、達成することができる。
- 参考スコア(独自算出の注目度): 92.03764152132315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exponential growth of large language models (LLMs) has opened up numerous
possibilities for multi-modal AGI systems. However, the progress in vision and
vision-language foundation models, which are also critical elements of
multi-modal AGI, has not kept pace with LLMs. In this work, we design a
large-scale vision-language foundation model (InternVL), which scales up the
vision foundation model to 6 billion parameters and progressively aligns it
with the large language model, using web-scale image-text data from various
sources. This model can be broadly applied to and achieve state-of-the-art
performance on visual perception tasks such as image-level or pixel-level
recognition, vision-language tasks such as zero-shot image/video
classification, zero-shot image/video-text retrieval, and link with LLMs to
create multi-modal dialogue systems. We hope that our research could contribute
to the development of multi-modal large models. Code and models are available
at https://github.com/OpenGVLab/InternVL.
- Abstract(参考訳): 大規模言語モデル(LLM)の指数的成長は、多モードAGIシステムに多くの可能性をもたらした。
しかし、マルチモーダルAGIの重要な要素でもあるビジョンと視覚言語基盤モデルの進歩は、LLMと歩調を合わせていない。
本研究では,視覚基盤モデルを60億のパラメータに拡張し,様々な情報源のWebスケール画像テキストデータを用いて大規模言語モデルに段階的に対応させる大規模視覚基礎モデル(InternVL)を設計する。
このモデルは、画像レベルやピクセルレベル認識などの視覚知覚タスク、ゼロショット画像/ビデオ分類、ゼロショット画像/ビデオテキスト検索などの視覚言語タスク、llmとのリンク、マルチモーダル対話システムの作成など、最先端のパフォーマンスに広く適用することができる。
マルチモーダル大規模モデルの開発に,我々の研究が貢献できることを願っています。
コードとモデルはhttps://github.com/OpenGVLab/InternVLで公開されている。
関連論文リスト
- Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [56.391404083287235]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Libra: Building Decoupled Vision System on Large Language Models [63.28088885230901]
大規模言語モデル(LLM)上の分離視覚システムを備えたプロトタイプモデルLibraを紹介する。
分離された視覚システムは、内部モーダルモデリングと相互モーダル相互作用を分離し、ユニークな視覚情報モデリングと効果的な相互モーダル理解をもたらす。
論文 参考訳(メタデータ) (2024-05-16T14:34:44Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality [95.76661165594884]
mPLUG-Owlは、大規模言語モデル(LLM)にマルチモーダル能力を持たせる訓練パラダイムである。
トレーニングパラダイムは、LLMの助けを借りて視覚知識を学ぶ、画像とテキストの整列のための2段階の手法を含む。
実験の結果,本モデルは既存のマルチモーダルモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-04-27T13:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。