論文の概要: Surrealistic-like Image Generation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2412.14366v1
- Date: Wed, 18 Dec 2024 22:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:06.755639
- Title: Surrealistic-like Image Generation with Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いた超現実的画像生成
- Authors: Elif Ayten, Shuai Wang, Hjalmar Snoep,
- Abstract要約: 本稿では、視覚言語生成モデルを用いて、超現実主義運動における絵画のスタイルにおける画像の生成について検討する。
本研究は、様々な画像生成設定と異なるモデルに基づく画像の生成から始まる。
我々は、選択したモデルの性能を評価し、そのような画像を生成する能力について貴重な知見を得る。
- 参考スコア(独自算出の注目度): 4.66729174362509
- License:
- Abstract: Recent advances in generative AI make it convenient to create different types of content, including text, images, and code. In this paper, we explore the generation of images in the style of paintings in the surrealism movement using vision-language generative models, including DALL-E, Deep Dream Generator, and DreamStudio. Our investigation starts with the generation of images under various image generation settings and different models. The primary objective is to identify the most suitable model and settings for producing such images. Additionally, we aim to understand the impact of using edited base images on the generated resulting images. Through these experiments, we evaluate the performance of selected models and gain valuable insights into their capabilities in generating such images. Our analysis shows that Dall-E 2 performs the best when using the generated prompt by ChatGPT.
- Abstract(参考訳): 生成AIの最近の進歩は、テキスト、画像、コードなど、さまざまなタイプのコンテンツを作成するのに便利である。
本稿では,DALL-E,Deep Dream Generator,DreamStudioなどの視覚言語生成モデルを用いて,超現実主義運動における絵画様式のイメージ生成について検討する。
本研究は,様々な画像生成設定と異なるモデルに基づく画像生成から始まる。
主な目的は、そのような画像を生成するのに最も適したモデルと設定を特定することである。
さらに,編集したベース画像が生成した画像に与える影響を理解することを目的とする。
これらの実験を通じて、選択したモデルの性能を評価し、そのような画像を生成する能力について貴重な知見を得る。
解析の結果,ChatGPTが生成したプロンプトを使用する場合,Dall-E 2が最善であることがわかった。
関連論文リスト
- Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Elucidating the design space of language models for image generation [13.96798987912677]
画像トークンはテキストトークンと比較してランダム性が高いことを示す。
また, 画像生成における局所的情報の重要性を, 全てのモデルで把握できたが, より小さなモデルでは, グローバルな文脈を捉えるのに苦労していることがわかった。
我々の研究は、視覚生成における言語モデルの最適化挙動を初めて分析し、他の領域にLMを適用する際に、より効果的な設計を刺激できると考えている。
論文 参考訳(メタデータ) (2024-10-21T17:57:04Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Bridging Different Language Models and Generative Vision Models for
Text-to-Image Generation [12.024554708901514]
テキスト・ツー・イメージ生成のための多種多様な事前学習言語モデルと生成視覚モデルの統合を可能にするパイプラインであるLaVi-Bridgeを提案する。
私たちのパイプラインは、様々な言語モデルと生成視覚モデルと互換性があり、異なる構造を収容しています。
論文 参考訳(メタデータ) (2024-03-12T17:50:11Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。
このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文 参考訳(メタデータ) (2023-07-11T02:35:26Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。