論文の概要: TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
- arxiv url: http://arxiv.org/abs/2312.16862v1
- Date: Thu, 28 Dec 2023 07:11:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 16:58:02.806270
- Title: TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
- Title(参考訳): TinyGPT-V:小さなバックボーンによる効率的なマルチモーダル大言語モデル
- Authors: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
- Abstract要約: 本稿では,TinyGPT-Vについて紹介する。
Phi-2上に構築されたTinyGPT-Vは、BLIP-2やCLIPから事前訓練された視覚モジュールと効果的な言語バックボーンを結合する。
我々の研究は、コスト効率、効率的、高性能なMLLMを設計するためのさらなる開発を促進する。
- 参考スコア(独自算出の注目度): 9.649518201893164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the era of advanced multimodel learning, multimodal large language models
(MLLMs) such as GPT-4V have made remarkable strides towards bridging language
and visual elements. However, the closed-source nature and considerable
computational demand present notable challenges for universal usage and
modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come
in, presenting groundbreaking achievements across tasks. Despite these
accomplishments, computational efficiency remains an unresolved issue, as these
models, like LLaVA-v1.5-13B, require substantial resources. Addressing these
issues, we introduce TinyGPT-V, a new-wave model marrying impressive
performance with commonplace computational capacity. It stands out by requiring
merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon
Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision
modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique
quantisation process, suitable for local deployment and inference tasks on 8G
various devices. Our work fosters further developments for designing
cost-effective, efficient, and high-performing MLLMs, expanding their
applicability in a broad array of real-world scenarios. Furthermore this paper
proposed a new paradigm of Multimodal Large Language Model via small backbones.
Our code and training weights are placed at:
https://github.com/DLYuanGod/TinyGPT-V and
https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.
- Abstract(参考訳): 先進的なマルチモデル学習の時代、GPT-4Vのようなマルチモーダルな大規模言語モデル(MLLM)は、ブリッジング言語や視覚要素に顕著な進歩を遂げてきた。
しかし、クローズドソースの性質と相当な計算要求は、普遍的な使用と修正に顕著な課題をもたらす。
そこでLLaVAやMiniGPT-4といったオープンソースのMLLMが登場し、タスク全体での画期的な成果が示されています。
これらの成果にもかかわらず、LLaVA-v1.5-13Bのような計算効率は未解決の問題のままである。
これらの問題に対処するため、我々はTinyGPT-Vを導入した。
トレーニングには24GのGPU、推論には8GのGPUまたはCPUが必要だ。
Phi-2上に構築されたTinyGPT-Vは、BLIP-2やCLIPから事前訓練された視覚モジュールと効果的な言語バックボーンを結合する。
TinyGPT-Vの2.8Bパラメータは、ローカルな配置と8Gデバイスでの推論タスクに適したユニークな量子化プロセスを実行することができる。
我々の研究は、コスト効率、効率、高性能なMLLMを設計するためのさらなる開発を奨励し、様々な現実のシナリオで適用範囲を広げる。
さらに,小型バックボーンを用いたマルチモーダル大規模言語モデルの新たなパラダイムを提案する。
コードとトレーニングの重みはそれぞれ、https://github.com/DLYuanGod/TinyGPT-Vとhttps://huggingface.co/Tyrannosaurus/TinyGPT-Vです。
関連論文リスト
- Efficient Multimodal Learning from Data-centric Perspective [22.429612780327282]
本稿では, フレキシブルビジョンと言語バックボーンを備えた軽量MLLMのファミリであるBunnyを紹介し, 凝縮学習データから効率的なマルチモーダル学習を実現する。
注目すべきは、Bunny-3Bは最先端の大規模なMLLM、特にLLaVA-v1.5-13Bを複数のベンチマークで上回ることです。
論文 参考訳(メタデータ) (2024-02-18T10:09:10Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Transcending Scaling Laws with 0.1% Extra Compute [128.13903265447675]
言語モデルをスケールすることでパフォーマンスが向上するが、計算コストは大幅に向上する。
本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。
ほぼ無視可能な余分な計算コストと新しいデータソースがなければ、ダウンストリームメトリクス上の大規模言語モデルのスケーリング特性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2022-10-20T16:46:41Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。