論文の概要: DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination
- arxiv url: http://arxiv.org/abs/2311.15477v1
- Date: Mon, 27 Nov 2023 01:24:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:31:12.755774
- Title: DreamCreature: Crafting Photorealistic Virtual Creatures from
Imagination
- Title(参考訳): DreamCreature: Imaginationからフォトリアリスティックなバーチャル創造物を作る
- Authors: Kam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang
- Abstract要約: ターゲット概念のラベルなしイメージのセットを前提として、我々は、新しいハイブリッド概念を創出できるT2Iモデルをトレーニングすることを目指している。
そこで我々はDreamCreatureと呼ばれる新しい手法を提案し,その基盤となるサブ概念を同定し抽出する。
したがって、T2Iは忠実な構造とフォトリアリスティックな外観を持つ新しい概念を生成するのに適応する。
- 参考スコア(独自算出の注目度): 140.1641573781066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image (T2I) generative models allow for high-quality synthesis
following either text instructions or visual examples. Despite their
capabilities, these models face limitations in creating new, detailed creatures
within specific categories (e.g., virtual dog or bird species), which are
valuable in digital asset creation and biodiversity analysis. To bridge this
gap, we introduce a novel task, Virtual Creatures Generation: Given a set of
unlabeled images of the target concepts (e.g., 200 bird species), we aim to
train a T2I model capable of creating new, hybrid concepts within diverse
backgrounds and contexts. We propose a new method called DreamCreature, which
identifies and extracts the underlying sub-concepts (e.g., body parts of a
specific species) in an unsupervised manner. The T2I thus adapts to generate
novel concepts (e.g., new bird species) with faithful structures and
photorealistic appearance by seamlessly and flexibly composing learned
sub-concepts. To enhance sub-concept fidelity and disentanglement, we extend
the textual inversion technique by incorporating an additional projector and
tailored attention loss regularization. Extensive experiments on two
fine-grained image benchmarks demonstrate the superiority of DreamCreature over
prior methods in both qualitative and quantitative evaluation. Ultimately, the
learned sub-concepts facilitate diverse creative applications, including
innovative consumer product designs and nuanced property modifications.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ(T2I)生成モデルは、テキスト命令や視覚的な例に従って高品質な合成を可能にする。
それらの能力にもかかわらず、これらのモデルは、デジタル資産の作成と生物多様性分析に有用な特定のカテゴリー(例えば、仮想犬や鳥類など)で、より詳細な生物を創造する際の限界に直面している。
このギャップを埋めるために、我々はVirtual Creatures Generationという新しいタスクを導入する: 対象概念(例えば200種の鳥種)のラベルのないイメージセットが与えられた場合、様々な背景や背景の中で新しいハイブリッドな概念を創造できるT2Iモデルをトレーニングすることを目指している。
本研究では, 基礎となるサブコンセプト(例えば, 特定の種の体の一部)を, 教師なしで識別し, 抽出するDreamCreatureという新しい手法を提案する。
したがって、t2iは、学習された概念をシームレスに柔軟に構成することで、忠実な構造とフォトリアリスティックな外観を持つ新しい概念(例えばニューバード種)を生み出す。
サブコンセプトの忠実度と不整合性を高めるため,追加のプロジェクタと注意損失正規化を組み込むことでテキストの逆変換手法を拡張した。
2つの細粒度画像ベンチマークに関する広範囲な実験は、質的および定量的評価において、以前の方法よりもドリームクリアチュアが優れていることを示している。
究極的には、学習されたサブコンセプトは、革新的な消費者製品デザインやニュアンス的プロパティ変更を含む、多様な創造的アプリケーションを促進する。
関連論文リスト
- MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。
これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文 参考訳(メタデータ) (2024-10-17T09:22:53Z) - KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
テキスト・画像生成モデルにおける実体の忠実度に関する系統的研究を行う。
我々はランドマークの建物、航空機、植物、動物など、幅広い現実世界の視覚的実体を生成する能力に焦点をあてる。
その結果、最も高度なテキスト・画像モデルでさえ、正確な視覚的詳細を持つエンティティを生成できないことが判明した。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - ConceptLab: Creative Concept Generation using VLM-Guided Diffusion Prior
Constraints [56.824187892204314]
我々は創造的なテキスト・画像生成の課題を提示し、幅広いカテゴリの新しいメンバーを創り出そうとする。
本稿では, 先行拡散の出力空間上での最適化プロセスとして, 創造的生成問題を定式化できることを示す。
我々は、最適化問題に新たな制約を適応的に付加する質問応答型視覚言語モデル(VLM)を導入し、よりユニークな生成物を発見するようモデルに促す。
論文 参考訳(メタデータ) (2023-08-03T17:04:41Z) - ConceptBed: Evaluating Concept Learning Abilities of Text-to-Image
Diffusion Models [79.10890337599166]
本研究では,284のユニークな視覚概念と33Kの合成テキストプロンプトからなる大規模データセットであるConceptBedを紹介する。
我々は、対象、属性、スタイルのいずれかである視覚概念を評価し、また、構成性の4つの次元(計数、属性、関係、行動)を評価する。
私たちの結果は、概念を学ぶことと、既存のアプローチが克服に苦労する構成性を維持することのトレードオフを示しています。
論文 参考訳(メタデータ) (2023-06-07T18:00:38Z) - DreamBooth: Fine Tuning Text-to-Image Diffusion Models for
Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。
トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。
次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文 参考訳(メタデータ) (2022-08-25T17:45:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。