Fugu-MT 論文翻訳(概要): DreamCreature: Crafting Photorealistic Virtual Creatures from Imagination

論文の概要: DreamCreature: Crafting Photorealistic Virtual Creatures from Imagination

arxiv url: http://arxiv.org/abs/2311.15477v1
Date: Mon, 27 Nov 2023 01:24:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 17:31:12.755774
Title: DreamCreature: Crafting Photorealistic Virtual Creatures from Imagination
Title（参考訳）: DreamCreature: Imaginationからフォトリアリスティックなバーチャル創造物を作る
Authors: Kam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang
Abstract要約: ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
参考スコア（独自算出の注目度）: 140.1641573781066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent text-to-image (T2I) generative models allow for high-quality synthesis following either text instructions or visual examples. Despite their capabilities, these models face limitations in creating new, detailed creatures within specific categories (e.g., virtual dog or bird species), which are valuable in digital asset creation and biodiversity analysis. To bridge this gap, we introduce a novel task, Virtual Creatures Generation: Given a set of unlabeled images of the target concepts (e.g., 200 bird species), we aim to train a T2I model capable of creating new, hybrid concepts within diverse backgrounds and contexts. We propose a new method called DreamCreature, which identifies and extracts the underlying sub-concepts (e.g., body parts of a specific species) in an unsupervised manner. The T2I thus adapts to generate novel concepts (e.g., new bird species) with faithful structures and photorealistic appearance by seamlessly and flexibly composing learned sub-concepts. To enhance sub-concept fidelity and disentanglement, we extend the textual inversion technique by incorporating an additional projector and tailored attention loss regularization. Extensive experiments on two fine-grained image benchmarks demonstrate the superiority of DreamCreature over prior methods in both qualitative and quantitative evaluation. Ultimately, the learned sub-concepts facilitate diverse creative applications, including innovative consumer product designs and nuanced property modifications.
Abstract（参考訳）: 最近のテキスト・ツー・イメージ(T2I)生成モデルは、テキスト命令や視覚的な例に従って高品質な合成を可能にする。それらの能力にもかかわらず、これらのモデルは、デジタル資産の作成と生物多様性分析に有用な特定のカテゴリー(例えば、仮想犬や鳥類など)で、より詳細な生物を創造する際の限界に直面している。このギャップを埋めるために、我々はVirtual Creatures Generationという新しいタスクを導入する: 対象概念(例えば200種の鳥種)のラベルのないイメージセットが与えられた場合、様々な背景や背景の中で新しいハイブリッドな概念を創造できるT2Iモデルをトレーニングすることを目指している。本研究では, 基礎となるサブコンセプト(例えば, 特定の種の体の一部)を, 教師なしで識別し, 抽出するDreamCreatureという新しい手法を提案する。したがって、t2iは、学習された概念をシームレスに柔軟に構成することで、忠実な構造とフォトリアリスティックな外観を持つ新しい概念(例えばニューバード種)を生み出す。サブコンセプトの忠実度と不整合性を高めるため,追加のプロジェクタと注意損失正規化を組み込むことでテキストの逆変換手法を拡張した。 2つの細粒度画像ベンチマークに関する広範囲な実験は、質的および定量的評価において、以前の方法よりもドリームクリアチュアが優れていることを示している。究極的には、学習されたサブコンセプトは、革新的な消費者製品デザインやニュアンス的プロパティ変更を含む、多様な創造的アプリケーションを促進する。

関連論文リスト

Shape2Animal: Creative Animal Generation from Natural Silhouettes [14.338537127280402]
本稿では, 雲, 石, 炎などの自然物シルエットを可塑性動物形として再解釈するためのShape2Animalフレームワークを提案する。我々の自動フレームワークはまずオープン語彙セグメンテーションを行い、オブジェクトシルエットを抽出し、意味的に適切な動物概念を解釈する。次に、入力形状に適合した動物画像を合成し、テキストと画像の拡散モデルを利用して、それを元のシーンにシームレスにブレンドする。
論文参考訳（メタデータ） (2025-06-25T17:04:08Z)
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文参考訳（メタデータ） (2024-10-17T09:22:53Z)
KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文参考訳（メタデータ） (2024-10-15T17:50:37Z)
LLM2FEA: Discover Novel Designs with Generative Evolutionary Multitasking [21.237950330178354]
本稿では,複数の領域にまたがる知識を伝達することで,生成モデルにおける新しい設計を初めて発見する試みを提案する。多要素進化アルゴリズム(MFEA)を用いて大きな言語モデルを駆動し、LLM2FEAは様々な分野からの知識を統合し、新規で実用的なオブジェクトを発見する際に生成モデルを導くプロンプトを生成する。
論文参考訳（メタデータ） (2024-06-21T07:20:51Z)
Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-27T13:31:39Z)
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimodal Diffusion [74.44273919041912]
大規模なテキスト・画像生成モデルは印象的な進歩を遂げ、高品質な画像を合成する能力を示している。しかし、これらのモデルを芸術的な画像編集に適用することは、2つの重要な課題を提起する。我々は,マルチモーダル入力をコーディネートする拡散モデルに基づく,革新的な統一フレームワークCreative Synthを構築した。
論文参考訳（メタデータ） (2024-01-25T10:42:09Z)
Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文参考訳（メタデータ） (2023-10-11T12:05:44Z)
Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-08T16:45:56Z)
ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文参考訳（メタデータ） (2023-08-03T17:04:41Z)
ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文参考訳（メタデータ） (2023-06-07T18:00:38Z)
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文参考訳（メタデータ） (2022-08-25T17:45:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。