論文の概要: Retrieving Conditions from Reference Images for Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02521v2
- Date: Fri, 15 Mar 2024 04:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 22:43:22.268652
- Title: Retrieving Conditions from Reference Images for Diffusion Models
- Title(参考訳): 拡散モデルにおける参照画像からの条件抽出
- Authors: Haoran Tang, Xin Zhou, Jieren Deng, Zhihong Pan, Hao Tian, Pratik Chaudhari,
- Abstract要約: 拡散モデルを用いた統合検索問題として主観駆動生成を考える。
本稿では,RetriNetという新しい拡散モデルアーキテクチャを導入する。
また、より難しい問題、概念構成を研究するために、研究で親しみやすいデータセットRetriBooruを提案する。
- 参考スコア(独自算出の注目度): 30.14303302029618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Newly developed diffusion-based techniques have showcased phenomenal abilities in producing a wide range of high-quality images, sparking considerable interest in various applications. A prevalent scenario is to generate new images based on a subject from reference images. This subject could be face identity for styled avatars, body and clothing for virtual try-on and so on. Satisfying this requirement is evolving into a field called Subject-Driven Generation. In this paper, we consider Subject-Driven Generation as a unified retrieval problem with diffusion models. We introduce a novel diffusion model architecture, named RetriNet, designed to address and solve these problems by retrieving subject attributes from reference images precisely, and filter out irrelevant information. RetriNet demonstrates impressive performance when compared to existing state-of-the-art approaches in face generation. We further propose a research and iteration friendly dataset, RetriBooru, to study a more difficult problem, concept composition. Finally, to better evaluate alignment between similarity and diversity or measure diversity that have been previously unaccounted for, we introduce a novel class of metrics named Similarity Weighted Diversity (SWD).
- Abstract(参考訳): 拡散に基づく新しい技術は、幅広い高品質な画像を作成する際の驚くべき能力を示し、様々な応用に多大な関心を呼んだ。
一般的なシナリオは、参照画像から被写体に基づいた新しい画像を生成することである。
この主題は、スタイル化されたアバター、仮想試着用の体と衣服などに対する顔認証である可能性がある。
この要件を満たすことは、主観駆動生成と呼ばれる分野へと進化しています。
本稿では,拡散モデルを用いた統合検索問題として,主観駆動生成を考察する。
本稿では,参照画像から対象属性を正確に抽出し,無関係な情報をフィルタリングすることで,これらの問題に対処し,解決するための新しい拡散モデルアーキテクチャRetriNetを紹介する。
RetriNetは、顔生成における既存の最先端アプローチと比較して、素晴らしいパフォーマンスを示している。
さらに、より難しい問題、概念構成を研究するために、研究とイテレーションフレンドリなデータセットRetriBooruを提案する。
最後に、類似度と多様性の整合性を評価するために、これまで考慮されていなかった多様性を測定するために、Simisity Weighted Diversity (SWD)と呼ばれる新しいメトリクスのクラスを導入する。
関連論文リスト
- Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - Diffusion idea exploration for art generation [0.10152838128195467]
拡散モデルは最近、クロスモーダルデータを用いた画像生成タスクにおいて、他の生成モデルよりも優れています。
このタスクの新たな画像生成の初期実験は、有望な質的結果を示した。
論文 参考訳(メタデータ) (2023-07-11T02:35:26Z) - Real-World Image Variation by Aligning Diffusion Inversion Chain [53.772004619296794]
生成した画像と実世界の画像の間にはドメインギャップがあり、これは実世界の画像の高品質なバリエーションを生成する上での課題である。
実世界画像のアライメントによる変化(RIVAL)と呼ばれる新しい推論パイプラインを提案する。
我々のパイプラインは、画像生成プロセスとソース画像の反転チェーンを整列させることにより、画像の変動の生成品質を向上させる。
論文 参考訳(メタデータ) (2023-05-30T04:09:47Z) - Investigating GANsformer: A Replication Study of a State-of-the-Art
Image Generation Model [0.0]
我々は、オリジナルのGANネットワークであるGANformerの新たなバリエーションを再現し、評価する。
リソースと時間制限のため、ネットワークのトレーニング時間、データセットタイプ、サイズを制限しなければなりませんでした。
論文 参考訳(メタデータ) (2023-03-15T12:51:16Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Pose Guided Image Generation from Misaligned Sources via Residual Flow
Based Correction [31.39424991391106]
そこで本稿では,ビューアングルやポーズ,表情など,ソース間の多種多様なバリエーションを統一的な枠組みでモデル化する手法を提案する。
我々は、人体、顔、都市シーン、および3Dオブジェクトを含むさまざまなデータに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-02-02T01:30:15Z) - Random Network Distillation as a Diversity Metric for Both Image and
Text Generation [62.13444904851029]
我々は、どんな種類のデータにも、どんな種類のデータにも、自然にも適用できる新しい多様性指標を開発した。
私たちはこのメトリクスを画像とテキストの両方で検証し、デプロイします。
論文 参考訳(メタデータ) (2020-10-13T22:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。