論文の概要: Instruct-Imagen: Image Generation with Multi-modal Instruction
- arxiv url: http://arxiv.org/abs/2401.01952v1
- Date: Wed, 3 Jan 2024 19:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:33:16.941743
- Title: Instruct-Imagen: Image Generation with Multi-modal Instruction
- Title(参考訳): instruct-imagen:マルチモーダル命令による画像生成
- Authors: Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li,
Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang,
Xuhui Jia
- Abstract要約: Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
- 参考スコア(独自算出の注目度): 90.04481955523514
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents instruct-imagen, a model that tackles heterogeneous image
generation tasks and generalizes across unseen tasks. We introduce *multi-modal
instruction* for image generation, a task representation articulating a range
of generation intents with precision. It uses natural language to amalgamate
disparate modalities (e.g., text, edge, style, subject, etc.), such that
abundant generation intents can be standardized in a uniform format.
We then build instruct-imagen by fine-tuning a pre-trained text-to-image
diffusion model with a two-stage framework. First, we adapt the model using the
retrieval-augmented training, to enhance model's capabilities to ground its
generation on external multimodal context. Subsequently, we fine-tune the
adapted model on diverse image generation tasks that requires vision-language
understanding (e.g., subject-driven generation, etc.), each paired with a
multi-modal instruction encapsulating the task's essence. Human evaluation on
various image generation datasets reveals that instruct-imagen matches or
surpasses prior task-specific models in-domain and demonstrates promising
generalization to unseen and more complex tasks.
- Abstract(参考訳): 本稿では,不均一な画像生成タスクに取り組み,未知のタスクにまたがって一般化するinstruct-imagenモデルを提案する。
画像生成のための *multi-modal instruction* を導入する。
自然言語を用いて異なる様相(例えば、テキスト、エッジ、スタイル、主題など)を区別し、豊富な世代の意図を統一したフォーマットで標準化することができる。
次に2段階のフレームワークで事前学習したテキストから画像への拡散モデルを微調整してinstruct-imagenを構築する。
まず,モデル生成を外部のマルチモーダル・コンテクストにグラウンドする能力を高めるために,検索学習を用いてモデルを適用する。
その後、視覚言語理解を必要とする多様な画像生成タスクの適応モデルを微調整し(例えば、主観駆動生成など)、タスクの本質をカプセル化したマルチモーダル命令と組み合わせる。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の従来のタスク固有のモデルと一致するか、あるいは超えている。
関連論文リスト
- UNIMO-G: Unified Image Generation through Multimodal Conditional Diffusion [36.06457895469353]
UNIMO-Gは条件付き拡散フレームワークであり、インターリーブされたテキストと視覚入力を持つマルチモーダルプロンプトで動作する。
テキスト・ツー・イメージ生成とゼロショット・テーマ駆動合成の両面で優れている。
論文 参考訳(メタデータ) (2024-01-24T11:36:44Z) - Apollo: Zero-shot MultiModal Reasoning with Multiple Experts [14.359111652624899]
異なるモダリティやドメインにまたがって、異なる基礎モデルの専門知識を活用するモジュラーフレームワークを提案する。
我々のアプローチは、分散化されたコマンド実行を可能にし、各モデルが他のモデルの専門知識から貢献と利益を得られるようにします。
提案手法は,画像と音声が付与され,提供された音声のコンテキスト内で画像を記述するテキストを生成する,新たなタスクである音声認識画像キャプションで実証する。
論文 参考訳(メタデータ) (2023-10-25T22:36:40Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。