論文の概要: Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic
Image Design and Generation
- arxiv url: http://arxiv.org/abs/2310.08541v1
- Date: Thu, 12 Oct 2023 17:34:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:22:22.118867
- Title: Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic
Image Design and Generation
- Title(参考訳): Idea2Img:自動画像設計と生成のためのGPT-4V(ision)による反復自己精製
- Authors: Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin,
Zicheng Liu, Lijuan Wang
- Abstract要約: 本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己修正システムであるIdean to Image'を紹介し,画像の自動設計と生成を行う。
大規模マルチモーダルモデル(LMM)に基づくシステムでは,類似のマルチモーダル自己抑止能力が得られるかを検討する。
- 参考スコア(独自算出の注目度): 121.42924593374127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ``Idea to Image,'' a system that enables multimodal iterative
self-refinement with GPT-4V(ision) for automatic image design and generation.
Humans can quickly identify the characteristics of different text-to-image
(T2I) models via iterative explorations. This enables them to efficiently
convert their high-level generation ideas into effective T2I prompts that can
produce good images. We investigate if systems based on large multimodal models
(LMMs) can develop analogous multimodal self-refinement abilities that enable
exploring unknown models or environments via self-refining tries. Idea2Img
cyclically generates revised T2I prompts to synthesize draft images, and
provides directional feedback for prompt revision, both conditioned on its
memory of the probed T2I model's characteristics. The iterative self-refinement
brings Idea2Img various advantages over vanilla T2I models. Notably, Idea2Img
can process input ideas with interleaved image-text sequences, follow ideas
with design instructions, and generate images of better semantic and visual
qualities. The user preference study validates the efficacy of multimodal
iterative self-refinement on automatic image design and generation.
- Abstract(参考訳): 本稿では,GPT-4V(ision)を用いたマルチモーダル反復自己複製システム「Idea to Image」を紹介し,画像の自動設計と生成を行う。
人間は反復探索により、異なるテキスト・ツー・イメージ(T2I)モデルの特徴を素早く特定できる。
これにより、高レベルのアイデアを効率的なT2Iプロンプトに変換し、優れた画像を生成することができる。
大規模マルチモーダルモデル(LMM)に基づくシステムを用いて,未知のモデルや環境を自己精製によって探索できる類似のマルチモーダル自己精製能力を実現することができるかを検討する。
idea2imgは、t2iモデルの特徴を記憶して、ドラフトイメージを合成するための修正されたt2iプロンプトを周期的に生成し、プロンプトリビジョンのための方向フィードバックを提供する。
反復自己定義は、vanilla t2iモデルに対するidea2imgの様々な利点をもたらす。
特筆すべきは、idea2imgは、画像テキストシーケンスをインターリーブした入力アイデアを処理し、設計指示でアイデアをフォローし、よりセマンティックで視覚的な品質のイメージを生成する。
ユーザ嗜好研究では,マルチモーダル反復自己定義による画像の自動設計と生成の有効性を検証する。
関連論文リスト
- ChatGen: Automatic Text-to-Image Generation From FreeStyle Chatting [18.002126814513417]
ChatGen-Evoは、モデルに不可欠な自動化スキルを徐々に装備する多段階進化戦略である。
ChatGen-Evoは様々なベースラインのパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-26T07:31:12Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Kandinsky 3: Text-to-Image Synthesis for Multifunctional Generative Framework [3.7953598825170753]
カンディンスキー3は潜伏拡散に基づく新しいT2Iモデルであり、高い品質と光リアリズムを達成する。
各種アプリケーションのためのベースT2Iモデルを拡張し,多機能生成システムを構築する。
人による評価では、Kandinsky 3はオープンソース生成システムの中で最高品質のスコアの1つを示している。
論文 参考訳(メタデータ) (2024-10-28T14:22:08Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation [150.57983348059528]
PRISMは人間の解釈可能なプロンプトと転送可能なプロンプトを自動的に識別するアルゴリズムである。
T2Iモデルへのブラックボックスアクセスのみを前提として、望まれる概念を効果的に生成できる。
本実験は,オブジェクト,スタイル,画像の正確なプロンプト生成におけるPRISMの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-03-28T02:35:53Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。