論文の概要: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models
- arxiv url: http://arxiv.org/abs/2304.10592v2
- Date: Mon, 2 Oct 2023 16:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 19:38:34.827811
- Title: MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models
- Title(参考訳): MiniGPT-4: 高度な大規模言語モデルによるビジョン言語理解の強化
- Authors: Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny
- Abstract要約: GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
- 参考スコア(独自算出の注目度): 41.84885546518666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent GPT-4 has demonstrated extraordinary multi-modal abilities, such
as directly generating websites from handwritten text and identifying humorous
elements within images. These features are rarely observed in previous
vision-language models. However, the technical details behind GPT-4 continue to
remain undisclosed. We believe that the enhanced multi-modal generation
capabilities of GPT-4 stem from the utilization of sophisticated large language
models (LLM). To examine this phenomenon, we present MiniGPT-4, which aligns a
frozen visual encoder with a frozen advanced LLM, Vicuna, using one projection
layer. Our work, for the first time, uncovers that properly aligning the visual
features with an advanced large language model can possess numerous advanced
multi-modal abilities demonstrated by GPT-4, such as detailed image description
generation and website creation from hand-drawn drafts. Furthermore, we also
observe other emerging capabilities in MiniGPT-4, including writing stories and
poems inspired by given images, teaching users how to cook based on food
photos, and so on. In our experiment, we found that the model trained on short
image caption pairs could produce unnatural language outputs (e.g., repetition
and fragmentation). To address this problem, we curate a detailed image
description dataset in the second stage to finetune the model, which
consequently improves the model's generation reliability and overall usability.
Our code, pre-trained model, and collected dataset are available at
https://minigpt-4.github.io/.
- Abstract(参考訳): 最近のgpt-4は、手書きテキストから直接webサイトを生成し、画像内のユーモラスな要素を識別するなど、異例のマルチモーダル能力を示している。
これらの特徴は、以前の視覚言語モデルではまれである。
しかし、GPT-4の技術的な詳細はまだ明らかになっていない。
GPT-4のマルチモーダル生成能力の強化は,高度な大規模言語モデル (LLM) の活用に起因していると考えている。
この現象を調べるために, 凍結した視覚エンコーダを1つのプロジェクション層を用いて, 凍結したLLM, Vicunaと整列させるMiniGPT-4を提案する。
我々の研究は、視覚的特徴を高度な大規模言語モデルに適切に整合させることで、手書きのドラフトから詳細な画像記述生成やWebサイト作成など、GPT-4で実証された多くの高度なマルチモーダル能力を持つことを初めて明らかにした。
さらに,minigpt-4では,与えられた画像に触発された物語や詩の書き方,食事写真に基づく料理の作り方など,他の新たな機能が注目されている。
実験の結果、短い画像キャプションペアで訓練したモデルが不自然な言語出力(繰り返しや断片化など)を生成できることがわかった。
この問題に対処するため,第2段階で詳細な画像記述データセットをキュレートし,モデルを微調整することで,モデル生成の信頼性とユーザビリティを向上した。
私たちのコード、事前トレーニングされたモデル、収集されたデータセットは、https://minigpt-4.github.io/で利用可能です。
関連論文リスト
- Enhancing Vision-Language Pre-training with Rich Supervisions [60.269564094889446]
本稿では,ScreenShotsによる事前学習の強化(S4)を提案する。
S4は、大規模なWebスクリーンショットレンダリングのデータを使用したビジョンランゲージモデルのための、新しい事前トレーニングパラダイムである。
提案手法は,現在のスクリーンショット事前学習目標と比較して,9種類の下流タスクにおいて,画像からテキストまでのモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-03-05T22:14:58Z) - GPT4Video: A Unified Multimodal Large Language Model for
lnstruction-Followed Understanding and Safety-Aware Generation [103.56612788682973]
GPT4Videoは、ビデオ理解と生成の両方の能力で大規模言語モデルを強化する統一されたマルチモデルフレームワークである。
具体的には、安定拡散生成モデルと統合された命令追従型アプローチを開発し、映像生成シナリオを効果的かつ安全に扱うことを実証した。
論文 参考訳(メタデータ) (2023-11-25T04:05:59Z) - Large Language Models can Share Images, Too! [7.25130576615102]
本稿では,InstructGPT, ChatGPT, GPT-4などの大規模言語モデルの画像共有機能について,視覚基礎モデルの助けを借りずにゼロショットで検討する。
本稿では,LLMが潜在的画像共有ターンを予測し,関連する画像記述を生成するための2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:59:21Z) - Ziya-Visual: Bilingual Large Vision-Language Model via Multi-Task
Instruction Tuning [27.544311403607786]
バイリンガルな大規模視覚言語モデル(LVLM)の集合であるZiya-Visualシリーズを紹介する。
我々のモデルは BLIP-2 から Querying Transformer を採用し,最適化手法のさらなる支援を探求している。
さらに,多モーダルシナリオにおけるGPT-4の理解能力を刺激し,収集した英語画像テキストデータセットを中国語に翻訳する。
論文 参考訳(メタデータ) (2023-10-12T09:39:17Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal
Instruction-Following Models [64.43988773982852]
本稿では,複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを提案する。
トレーニングを支援するために,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesueを紹介した。
本研究では,複数の画像間の理解と推論におけるSparklesChatの有効性を検証した。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - AltDiffusion: A Multilingual Text-to-Image Diffusion Model [4.534546889526814]
18の異なる言語をサポートする新しい多言語T2I拡散モデルAltDiffusionを提案する。
具体的には,知識蒸留に基づいて,まず多言語テキストエンコーダを訓練する。
次に、事前訓練された英語のみの拡散モデルにプラグインし、2段階のスキーマでモデルを訓練し、多言語機能を強化する。
論文 参考訳(メタデータ) (2023-08-19T11:52:12Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Controllable Text-to-Image Generation with GPT-4 [15.647246177542682]
我々は,GPT-4によって生成されたプログラムスケッチを用いて,拡散に基づくテキスト-画像パイプラインをガイドする制御-GPTを導入する。
Control-GPTはGPT-4に問い合わせてTikZコードを書き、生成されたスケッチは拡散モデルのテキスト命令と共に参照として使用される。
論文 参考訳(メタデータ) (2023-05-29T19:56:47Z) - Visual Instruction Tuning [79.70923292053097]
本稿では,言語のみの GPT-4 を用いてマルチモーダルな言語イメージ命令追跡データを生成する試みについて紹介する。
このようなデータに対して,LLaVA: Large Language and Vision Assistantを導入する。
科学QAを微調整すると、LLaVAとGPT-4の相乗効果は92.53%の新しい最先端精度を達成する。
論文 参考訳(メタデータ) (2023-04-17T17:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。