論文の概要: Kosmos-G: Generating Images in Context with Multimodal Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.02992v1
- Date: Wed, 4 Oct 2023 17:28:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 13:40:03.744651
- Title: Kosmos-G: Generating Images in Context with Multimodal Large Language
Models
- Title(参考訳): Kosmos-G:マルチモーダル大言語モデルを用いた文脈における画像生成
- Authors: Xichen Pan, Li Dong, Shaohan Huang, Zhiliang Peng, Wenhu Chen, Furu
Wei
- Abstract要約: 本稿では,マルチモーダル大規模言語モデル(MLLM)の高度な認識能力を利用したKosmos-Gを提案する。
提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。
Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を実証している。
- 参考スコア(独自算出の注目度): 124.00253348311792
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in text-to-image (T2I) and vision-language-to-image
(VL2I) generation have made significant strides. However, the generation from
generalized vision-language inputs, especially involving multiple images,
remains under-explored. This paper presents Kosmos-G, a model that leverages
the advanced perception capabilities of Multimodal Large Language Models
(MLLMs) to tackle the aforementioned challenge. Our approach aligns the output
space of MLLM with CLIP using the textual modality as an anchor and performs
compositional instruction tuning on curated data. Kosmos-G demonstrates a
unique capability of zero-shot multi-entity subject-driven generation. Notably,
the score distillation instruction tuning requires no modifications to the
image decoder. This allows for a seamless substitution of CLIP and effortless
integration with a myriad of U-Net techniques ranging from fine-grained
controls to personalized image decoder variants. We posit Kosmos-G as an
initial attempt towards the goal of "image as a foreign language in image
generation."
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)と視覚言語・イメージ(VL2I)の最近の進歩は大きな進歩をもたらした。
しかし、一般的な視覚言語入力、特に複数の画像を含むものからの生成は、未検討のままである。
本稿では,Multimodal Large Language Models (MLLM) の高度な認識能力を利用して,上記の課題に対処するKosmos-Gを提案する。
提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。
Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を示す。
特に、スコア蒸留指示チューニングは、画像デコーダの変更を必要としない。
これにより、CLIPのシームレスな置換と、きめ細かいコントロールからパーソナライズされたイメージデコーダまで、数多くのU-Net技術との統合が可能になる。
我々は、コスモスGを「画像生成における外国語としてのイメージ」という目標に向けた最初の試みとしている。
関連論文リスト
- UniCode: Learning a Unified Codebook for Multimodal Large Language Models [33.48624855154342]
マルチモーダル大言語モデル(MLLM)の領域内での新しいアプローチである textbfUniCode を提案する。
UniCodeは、視覚、テキスト、潜在的に他の種類の信号を効率的にトークン化する統一されたコードブックを学習する。
トレーニング中にパラメータが大幅に少なく、データが少ないにもかかわらず、Unicodeは視覚的再構成と生成の有望な能力を示している。
論文 参考訳(メタデータ) (2024-03-14T03:29:58Z) - UNIMO-G: Unified Image Generation through Multimodal Conditional
Diffusion [39.397961646315665]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Visually Grounded Reasoning across Languages and Cultures [27.31020761908739]
我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
論文 参考訳(メタデータ) (2021-09-28T16:51:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。