論文の概要: MiniGPT-5: Interleaved Vision-and-Language Generation via Generative
Vokens
- arxiv url: http://arxiv.org/abs/2310.02239v2
- Date: Thu, 5 Oct 2023 19:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:59:01.163789
- Title: MiniGPT-5: Interleaved Vision-and-Language Generation via Generative
Vokens
- Title(参考訳): minigpt-5: 生成vokensによる視覚言語間生成
- Authors: Kaizhi Zheng, Xuehai He, Xin Eric Wang
- Abstract要約: 我々は「生成ヴォケン」という概念を取り入れた革新的視覚・言語生成手法を導入する。
提案手法の特徴は,記述自由なマルチモーダル生成に着目した2段階の訓練戦略である。
我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 25.628246171480512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have garnered significant attention for their
advancements in natural language processing, demonstrating unparalleled prowess
in text comprehension and generation. Yet, the simultaneous generation of
images with coherent textual narratives remains an evolving frontier. In
response, we introduce an innovative interleaved vision-and-language generation
technique anchored by the concept of "generative vokens," acting as the bridge
for harmonized image-text outputs. Our approach is characterized by a
distinctive two-staged training strategy focusing on description-free
multimodal generation, where the training requires no comprehensive
descriptions of images. To bolster model integrity, classifier-free guidance is
incorporated, enhancing the effectiveness of vokens on image generation. Our
model, MiniGPT-5, exhibits substantial improvement over the baseline Divter
model on the MMDialog dataset and consistently delivers superior or comparable
multimodal outputs in human evaluations on the VIST dataset, highlighting its
efficacy across diverse benchmarks.
- Abstract(参考訳): 大規模言語モデル(llm)は、自然言語処理の進歩に多大な注意を払っており、テキスト理解と生成の非並列性を示している。
しかし、コヒーレントなテキスト物語を伴う画像の同時生成は、いまだ発展途上のフロンティアである。
これに対し,画像テキスト出力の橋梁として機能する「生成ヴォケンズ」の概念を取り入れた,革新的インターリーブな視覚・言語生成手法を提案する。
本手法は,画像の包括的記述を必要としない,記述自由なマルチモーダル生成に焦点を当てた2段階の訓練戦略を特徴とする。
モデル整合性を高めるため、分類器フリーガイダンスが組み込まれ、画像生成における発声の有効性を高める。
我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善され、VISTデータセットの人間評価において、優れた、あるいは同等のマルチモーダル出力が一貫して提供され、様々なベンチマークでその有効性を強調している。
関連論文リスト
- VL-GPT: A Generative Pre-trained Transformer for Vision and Language
Understanding and Generation [79.02357561313785]
視覚・言語データの同時認識・生成に長けたトランスモデルであるVL-GPT(Vision-Language Generative Pre-Traited Transformer)を導入する。
VL-GPTは、直感的な自己回帰的目的を用いることで、画像とテキストのモダリティを統一した事前学習アプローチを実現する。
論文 参考訳(メタデータ) (2023-12-14T18:59:43Z) - ViLTA: Enhancing Vision-Language Pre-training through Textual
Augmentation [35.05755930636518]
画像とテキストのペア間の微細な表現をより容易に学習するための2つのコンポーネントからなるViLTAを提案する。
Masked Language Modeling (MLM) では,モデルの堅牢性を高めるために,ソフトラベルを生成するクロス蒸留法を提案する。
画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成する。
論文 参考訳(メタデータ) (2023-08-31T12:46:36Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language
Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。
本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。
本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-09T06:31:15Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - DU-VLG: Unifying Vision-and-Language Generation via Dual
Sequence-to-Sequence Pre-training [37.15272352614968]
シーケンス生成問題として視覚・言語生成を統一するフレームワークであるDU-VLGを提案する。
Du-VLGは、マルチモーダルな自動エンコーダタスクとモダリティ変換タスクという、新しい2つの事前訓練タスクで訓練されている。
その結果, DU-VLGは一方向生成目標を訓練した変種や, コミットメント損失を伴わない変種よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-17T03:18:22Z) - Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense
in Text Generation Models [12.488828126859376]
テキスト生成におけるトランスフォーマーモデルのコモンセンス向上のための効果的な手法として,画像に含まれるマルチモーダル情報の利用について検討する。
われわれのアプローチをVisCTG: Visually Grounded Concept-to-Text Generationと呼んでいる。
論文 参考訳(メタデータ) (2021-09-08T19:38:11Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。