Fugu-MT 論文翻訳(概要): MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

論文の概要: MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens

arxiv url: http://arxiv.org/abs/2310.02239v1
Date: Tue, 3 Oct 2023 17:49:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 12:56:07.087403
Title: MiniGPT-5: Interleaved Vision-and-Language Generation via Generative Vokens
Title（参考訳）: minigpt-5: 生成vokensによる視覚言語間生成
Authors: Kaizhi Zheng, Xuehai He, Xin Eric Wang
Abstract要約: 我々は「生成ヴォケン」という概念を取り入れた革新的視覚・言語生成手法を導入する。提案手法の特徴は,記述自由なマルチモーダル生成に着目した2段階の訓練戦略である。我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善されている。
参考スコア（独自算出の注目度）: 25.628246171480512
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have garnered significant attention for their advancements in natural language processing, demonstrating unparalleled prowess in text comprehension and generation. Yet, the simultaneous generation of images with coherent textual narratives remains an evolving frontier. In response, we introduce an innovative interleaved vision-and-language generation technique anchored by the concept of "generative vokens," acting as the bridge for harmonized image-text outputs. Our approach is characterized by a distinctive two-staged training strategy focusing on description-free multimodal generation, where the training requires no comprehensive descriptions of images. To bolster model integrity, classifier-free guidance is incorporated, enhancing the effectiveness of vokens on image generation. Our model, MiniGPT-5, exhibits substantial improvement over the baseline Divter model on the MMDialog dataset and consistently delivers superior or comparable multimodal outputs in human evaluations on the VIST dataset, highlighting its efficacy across diverse benchmarks.
Abstract（参考訳）: 大規模言語モデル(llm)は、自然言語処理の進歩に多大な注意を払っており、テキスト理解と生成の非並列性を示している。しかし、コヒーレントなテキスト物語を伴う画像の同時生成は、いまだ発展途上のフロンティアである。これに対し,画像テキスト出力の橋梁として機能する「生成ヴォケンズ」の概念を取り入れた,革新的インターリーブな視覚・言語生成手法を提案する。本手法は,画像の包括的記述を必要としない,記述自由なマルチモーダル生成に焦点を当てた2段階の訓練戦略を特徴とする。モデル整合性を高めるため、分類器フリーガイダンスが組み込まれ、画像生成における発声の有効性を高める。我々のモデルであるMiniGPT-5は、MDDialogデータセットのベースラインダイバータモデルよりも大幅に改善され、VISTデータセットの人間評価において、優れた、あるいは同等のマルチモーダル出力が一貫して提供され、様々なベンチマークでその有効性を強調している。

関連論文リスト

Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文参考訳（メタデータ） (2025-10-02T00:40:02Z)
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation [14.877355149519198]
本稿では,大規模言語モデル(LLM)を既存のテキスト・画像拡散モデルに統合する新しい手法であるLDGenを紹介する。提案手法では,階層的なキャプション最適化とヒューマンインストラクション技術を用いて,正確な意味情報を導出する言語表現戦略を採用している。
論文参考訳（メタデータ） (2025-02-25T15:42:34Z)
The Narrow Gate: Localized Image-Text Communication in Native Multimodal Models [44.299894732492696]
視覚言語モデル(VLM)は、視覚情報がどのように処理され、テキスト領域に転送されるかに焦点を当て、画像理解タスクを処理する。テキストと画像の両方を生成するためにマルチモーダルデータのスクラッチからトレーニングされたネイティブなマルチモーダルVLMと、事前訓練された大規模言語モデルから適応された、あるいはテキストのみを生成することができる非ネイティブなマルチモーダルVLMを比較し、情報フローの重要な違いを強調した。単一トークンを非難することは画像理解性能を著しく低下させるのに対し、ターゲットレベルの介入は画像意味論や下流テキストをきめ細かな制御で確実に操ることを示す。
論文参考訳（メタデータ） (2024-12-09T16:39:40Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
Shapley Value-based Contrastive Alignment for Multimodal Information Extraction [17.04865437165252]
我々は、画像-コンテキスト-テキストインタラクションの新しいパラダイムを導入する。本稿では,新しいシェープ値に基づくコントラストアライメント(Shap-CA)法を提案する。我々の手法は既存の最先端手法を著しく上回っている。
論文参考訳（メタデータ） (2024-07-25T08:15:43Z)
Harmonizing Visual Text Comprehension and Generation [31.605599298507293]
視覚テキストの理解と生成に長けた,統一的で汎用的なマルチモーダル生成モデルであるTextHarmonyを提案する。我々は,多モード生成空間を部分的に分離して,モダリティ特化およびモダリティ非依存のLoRAエキスパートを集約するSlide-LoRAを提案する。様々なベンチマークによる総合的な実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-23T10:11:56Z)
Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文参考訳（メタデータ） (2024-07-14T07:12:25Z)
SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文参考訳（メタデータ） (2024-07-11T17:21:03Z)
TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。 39,153の画像、キャプション、102,437の質問が含まれている。本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文参考訳（メタデータ） (2024-06-10T18:52:37Z)
DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation [46.085482021301516]
市販のMLLMとT2Iモデルを連携させてマルチモーダル対話システムを構築するためのDialogGenを提案する。描画プロンプトアライメント、注意深いトレーニングデータキュレーション、エラー修正で構成されている。ダイアログジェネレーションとユーザスタディに関する実験は、他の最先端モデルと比較してダイアログジェネレーションの有効性を実証している。
論文参考訳（メタデータ） (2024-03-13T18:00:01Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文参考訳（メタデータ） (2022-11-27T14:46:01Z)
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning [23.45678557013005]
そこで本研究では,細粒度マルチモーダル表現を学習するためのマスク付きマルチモーダルモデリング手法を提案する。本手法は,画像テキスト入力において共同マスキングを行い,暗黙的および明示的の両方のターゲットを結合してマスク信号の復元を行う。本モデルは,画像テキスト検索,視覚的質問応答,視覚的推論,弱教師付き視覚的グラウンドティングなど,さまざまな下流視覚言語タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-10-09T06:31:15Z)
Fusion Models for Improved Visual Captioning [18.016295296424413]
本稿では,キャプション生成と修正のための汎用マルチモーダルモデル融合フレームワークを提案する。我々は、事前訓練されたマスケッド言語モデル(MLM)と視覚的キャプションモデル、Viz. Show、Attend、Tellを統合するために、同じ融合戦略を採用している。 Flickr8k, Flickr30k, MSCOCOの3つのベンチマーク画像キャプションデータセットに対するキャプション評価実験では, ベースラインよりも改善が見られた。
論文参考訳（メタデータ） (2020-10-28T21:55:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。