Fugu-MT 論文翻訳(概要): Kosmos-G: Generating Images in Context with Multimodal Large Language Models

論文の概要: Kosmos-G: Generating Images in Context with Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2310.02992v1
Date: Wed, 4 Oct 2023 17:28:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 13:40:03.744651
Title: Kosmos-G: Generating Images in Context with Multimodal Large Language Models
Title（参考訳）: Kosmos-G:マルチモーダル大言語モデルを用いた文脈における画像生成
Authors: Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu Wei
Abstract要約: 本稿では,マルチモーダル大規模言語モデル(MLLM)の高度な認識能力を利用したKosmos-Gを提案する。提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。 Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を実証している。
参考スコア（独自算出の注目度）: 124.00253348311792
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."
Abstract（参考訳）: テキスト・トゥ・イメージ(T2I)と視覚言語・イメージ(VL2I)の最近の進歩は大きな進歩をもたらした。しかし、一般的な視覚言語入力、特に複数の画像を含むものからの生成は、未検討のままである。本稿では,Multimodal Large Language Models (MLLM) の高度な認識能力を利用して,上記の課題に対処するKosmos-Gを提案する。提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。 Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を示す。特に、スコア蒸留指示チューニングは、画像デコーダの変更を必要としない。これにより、CLIPのシームレスな置換と、きめ細かいコントロールからパーソナライズされたイメージデコーダまで、数多くのU-Net技術との統合が可能になる。我々は、コスモスGを「画像生成における外国語としてのイメージ」という目標に向けた最初の試みとしている。

関連論文リスト

LDGen: Enhancing Text-to-Image Synthesis via Large Language Model-Driven Language Representation [14.877355149519198]
本稿では,大規模言語モデル(LLM)を既存のテキスト・画像拡散モデルに統合する新しい手法であるLDGenを紹介する。提案手法では,階層的なキャプション最適化とヒューマンインストラクション技術を用いて,正確な意味情報を導出する言語表現戦略を採用している。
論文参考訳（メタデータ） (2025-02-25T15:42:34Z)
UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding [12.34529497235534]
一貫性モデル(CM)は、画像とテキストの両方を効率的に生成する可能性を示している。主な課題は、画像生成とテキスト生成の両方に統一された認知的視点を確立することである。テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIPスコアでSD3を上回っている。画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5倍高速である。
論文参考訳（メタデータ） (2025-02-08T02:52:25Z)
Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文参考訳（メタデータ） (2024-05-28T15:58:31Z)
UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。 UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文参考訳（メタデータ） (2024-03-14T03:29:58Z)
Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文参考訳（メタデータ） (2023-05-26T19:22:03Z)
Unified Multi-Modal Latent Diffusion for Joint Subject and Text Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-03-16T13:50:20Z)
Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文参考訳（メタデータ） (2023-02-27T18:55:27Z)
Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文参考訳（メタデータ） (2022-05-25T10:12:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。