論文の概要: Kosmos-G: Generating Images in Context with Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.02992v1
- Date: Wed, 4 Oct 2023 17:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 13:40:03.744651
- Title: Kosmos-G: Generating Images in Context with Multimodal Large Language
Models
- Title(参考訳): Kosmos-G:マルチモーダル大言語モデルを用いた文脈における画像生成
- Authors: Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu
Wei
- Abstract要約: 本稿では,マルチモーダル大規模言語モデル(MLLM)の高度な認識能力を利用したKosmos-Gを提案する。
提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。
Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を実証している。
- 参考スコア(独自算出の注目度): 124.00253348311792
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in text-to-image (T2I) and vision-language-to-image
(VL2I) generation have made significant strides. However, the generation from
generalized vision-language inputs, especially involving multiple images,
remains under-explored. This paper presents Kosmos-G, a model that leverages
the advanced perception capabilities of Multimodal Large Language Models
(MLLMs) to tackle the aforementioned challenge. Our approach aligns the output
space of MLLM with CLIP using the textual modality as an anchor and performs
compositional instruction tuning on curated data. Kosmos-G demonstrates a
unique capability of zero-shot multi-entity subject-driven generation. Notably,
the score distillation instruction tuning requires no modifications to the
image decoder. This allows for a seamless substitution of CLIP and effortless
integration with a myriad of U-Net techniques ranging from fine-grained
controls to personalized image decoder variants. We posit Kosmos-G as an
initial attempt towards the goal of "image as a foreign language in image
generation."
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)と視覚言語・イメージ(VL2I)の最近の進歩は大きな進歩をもたらした。
しかし、一般的な視覚言語入力、特に複数の画像を含むものからの生成は、未検討のままである。
本稿では,Multimodal Large Language Models (MLLM) の高度な認識能力を利用して,上記の課題に対処するKosmos-Gを提案する。
提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。
Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を示す。
特に、スコア蒸留指示チューニングは、画像デコーダの変更を必要としない。
これにより、CLIPのシームレスな置換と、きめ細かいコントロールからパーソナライズされたイメージデコーダまで、数多くのU-Net技術との統合が可能になる。
我々は、コスモスGを「画像生成における外国語としてのイメージ」という目標に向けた最初の試みとしている。
関連論文リスト
- Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。
UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。
トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文 参考訳(メタデータ) (2024-03-14T03:29:58Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。