論文の概要: MiniGPT-5: Interleaved Vision-and-Language Generation via Generative
Vokens
- arxiv url: http://arxiv.org/abs/2310.02239v2
- Date: Thu, 5 Oct 2023 19:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:59:01.163789
- Title: MiniGPT-5: Interleaved Vision-and-Language Generation via Generative
Vokens
- Title(参考訳): minigpt-5: 生成vokensによる視覚言語間生成
- Authors: Kaizhi Zheng, Xuehai He, Xin Eric Wang
- Abstract要約: 我々は「生成ヴォケン」という概念を取り入れた革新的視覚・言語生成手法を導入する。
提案手法の特徴は,記述自由なマルチモーダル生成に着目した2段階の訓練戦略である。
我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 25.628246171480512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have garnered significant attention for their
advancements in natural language processing, demonstrating unparalleled prowess
in text comprehension and generation. Yet, the simultaneous generation of
images with coherent textual narratives remains an evolving frontier. In
response, we introduce an innovative interleaved vision-and-language generation
technique anchored by the concept of "generative vokens," acting as the bridge
for harmonized image-text outputs. Our approach is characterized by a
distinctive two-staged training strategy focusing on description-free
multimodal generation, where the training requires no comprehensive
descriptions of images. To bolster model integrity, classifier-free guidance is
incorporated, enhancing the effectiveness of vokens on image generation. Our
model, MiniGPT-5, exhibits substantial improvement over the baseline Divter
model on the MMDialog dataset and consistently delivers superior or comparable
multimodal outputs in human evaluations on the VIST dataset, highlighting its
efficacy across diverse benchmarks.
- Abstract(参考訳): 大規模言語モデル(llm)は、自然言語処理の進歩に多大な注意を払っており、テキスト理解と生成の非並列性を示している。
しかし、コヒーレントなテキスト物語を伴う画像の同時生成は、いまだ発展途上のフロンティアである。
これに対し,画像テキスト出力の橋梁として機能する「生成ヴォケンズ」の概念を取り入れた,革新的インターリーブな視覚・言語生成手法を提案する。
本手法は,画像の包括的記述を必要としない,記述自由なマルチモーダル生成に焦点を当てた2段階の訓練戦略を特徴とする。
モデル整合性を高めるため、分類器フリーガイダンスが組み込まれ、画像生成における発声の有効性を高める。
我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善され、VISTデータセットの人間評価において、優れた、あるいは同等のマルチモーダル出力が一貫して提供され、様々なベンチマークでその有効性を強調している。
関連論文リスト
- MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。
本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。
我々の手法は既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-07-25T08:15:43Z) - Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。
我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。
様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-23T10:11:56Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation [46.085482021301516]
市販のMLLMとT2Iモデルを連携させてマルチモーダル対話システムを構築するためのDialogGenを提案する。
描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。
ダイアログジェネレーションとユーザスタディに関する実験は、他の最先端モデルと比較してダイアログジェネレーションの有効性を実証している。
論文 参考訳(メタデータ) (2024-03-13T18:00:01Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language
Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。
本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。
本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-09T06:31:15Z) - Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。
我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。
Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文 参考訳(メタデータ) (2020-10-28T21:55:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。