論文の概要: MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning
- arxiv url: http://arxiv.org/abs/2310.09478v1
- Date: Sat, 14 Oct 2023 03:22:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 20:11:36.531829
- Title: MiniGPT-v2: large language model as a unified interface for
vision-language multi-task learning
- Title(参考訳): MiniGPT-v2:視覚言語多タスク学習のための統一インターフェースとしての大規模言語モデル
- Authors: Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan
Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed
Elhoseiny
- Abstract要約: MiniGPT-v2は、様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるモデルである。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
以上の結果から,MiniGPT-v2は多くの視覚的質問応答および視覚的接地ベンチマークにおいて高い性能を達成できた。
- 参考スコア(独自算出の注目度): 65.60607895153692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have shown their remarkable capabilities as a general
interface for various language-related applications. Motivated by this, we
target to build a unified interface for completing many vision-language tasks
including image description, visual question answering, and visual grounding,
among others. The challenge is to use a single model for performing diverse
vision-language tasks effectively with simple multi-modal instructions. Towards
this objective, we introduce MiniGPT-v2, a model that can be treated as a
unified interface for better handling various vision-language tasks. We propose
using unique identifiers for different tasks when training the model. These
identifiers enable our model to better distinguish each task instruction
effortlessly and also improve the model learning efficiency for each task.
After the three-stage training, the experimental results show that MiniGPT-v2
achieves strong performance on many visual question-answering and visual
grounding benchmarks compared to other vision-language generalist models. Our
model and codes are available at https://minigpt-v2.github.io/
- Abstract(参考訳): 大規模言語モデルは、様々な言語関連アプリケーションのための汎用インターフェースとして、目覚ましい能力を示している。
そこで我々は,画像記述や視覚的質問応答,視覚的接地など,多くの視覚言語タスクを完遂するための統一インターフェースの構築を目標としている。
課題は、単純なマルチモーダル命令で視覚言語タスクを効果的に実行するために単一のモデルを使用することである。
この目的のために,様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるMiniGPT-v2を導入する。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
これらの識別子により、各タスク命令を無益に識別し、各タスクのモデル学習効率を向上させることができる。
3段階の学習の結果,MiniGPT-v2は他の視覚言語モデルと比較して,多くの視覚的質問応答および視覚的グラウンド化ベンチマークにおいて高い性能を示した。
私たちのモデルとコードはhttps://minigpt-v2.github.io/で利用可能です。
関連論文リスト
- EVLM: An Efficient Vision-Language Model for Visual Understanding [18.794601813330715]
本稿では,計算コストを最小化する効率的なマルチモーダル言語モデルを提案する。
画像キャプションやビデオキャプションといったタスクにおいて,公開マルチモーダルベンチマークの競合スコアを達成し,良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-07-19T10:09:51Z) - Visual Instruction Tuning towards General-Purpose Multimodal Model: A
Survey [59.95153883166705]
従来のコンピュータビジョンは、モデルアーキテクチャで暗黙的に設計されたタスク命令を持つ専用モデルによって、個々のタスクを独立して解決する。
近年,視覚インストラクション・チューニング (VIT) の研究が盛んに行われている。
本研究の目的は,(1)コンピュータビジョンタスクのパラダイムとVIT開発を提示する背景,(2)一般的に使用されるネットワークアーキテクチャ,視覚的命令チューニングフレームワークと目的を導入したVITの基礎,および,設定とタスクの評価,(3)視覚的命令チューニングと評価において一般的に使用されるデータセットの体系的レビューを提供することである。
論文 参考訳(メタデータ) (2023-12-27T14:54:37Z) - PaLI-X: On Scaling up a Multilingual Vision and Language Model [166.9837904115951]
マルチ言語ビジョンと言語モデルであるPaLI-Xをスケールアップする際のトレーニングレシピと結果を示す。
我々のモデルは、多種多様な複雑なタスクにおいて、新しいレベルのパフォーマンスを達成する。
複雑なカウントや多言語オブジェクト検出といった,トレーニングミックスに明示的に含まれないタスクの出現を観察する。
論文 参考訳(メタデータ) (2023-05-29T18:58:38Z) - Images in Language Space: Exploring the Suitability of Large Language
Models for Vision & Language Tasks [17.97052348690598]
大規模言語モデルは、ゼロショットまたは少数ショット学習パラダイムを使用して、様々な言語タスクで堅牢なパフォーマンスを示す。
入力としてイメージを付加的に処理できるマルチモーダルモデルは、言語のみのモデルでサイズと一般性に追いつかない。
異なる言語モデルを用いて言語モデルに視覚情報をアクセスできるようにする。
論文 参考訳(メタデータ) (2023-05-23T07:50:36Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - Multitask Learning for Low Resource Spoken Language Understanding [26.106133114838215]
我々は、自動音声認識と意図分類、感情分類を用いて、二重目的のモデルを訓練する。
我々のモデルは、控えめなサイズではあるが、意図の分類に基づいて訓練されたモデルよりも改善されている。
本研究では,低リソースシナリオにおけるモデルの性能を,クラス毎に1つの例でトレーニングすることで検討する。
論文 参考訳(メタデータ) (2022-11-24T16:38:17Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - Unifying Vision-and-Language Tasks via Text Generation [81.3910771082967]
一つのアーキテクチャで異なるタスクを学習する統合フレームワークを提案する。
我々のモデルは、視覚的およびテキスト的入力に基づいて、テキストでラベルを生成することを学習する。
我々の生成的アプローチは、稀な答えを持つ質問に答える上で、より優れた一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-04T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。