論文の概要: Retrieving Conditions from Reference Images for Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02521v2
- Date: Fri, 15 Mar 2024 04:37:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 22:43:22.268652
- Title: Retrieving Conditions from Reference Images for Diffusion Models
- Title(参考訳): 拡散モデルにおける参照画像からの条件抽出
- Authors: Haoran Tang, Xin Zhou, Jieren Deng, Zhihong Pan, Hao Tian, Pratik Chaudhari,
- Abstract要約: 拡散モデルを用いた統合検索問題として主観駆動生成を考える。
本稿では,RetriNetという新しい拡散モデルアーキテクチャを導入する。
また、より難しい問題、概念構成を研究するために、研究で親しみやすいデータセットRetriBooruを提案する。
- 参考スコア(独自算出の注目度): 30.14303302029618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Newly developed diffusion-based techniques have showcased phenomenal abilities in producing a wide range of high-quality images, sparking considerable interest in various applications. A prevalent scenario is to generate new images based on a subject from reference images. This subject could be face identity for styled avatars, body and clothing for virtual try-on and so on. Satisfying this requirement is evolving into a field called Subject-Driven Generation. In this paper, we consider Subject-Driven Generation as a unified retrieval problem with diffusion models. We introduce a novel diffusion model architecture, named RetriNet, designed to address and solve these problems by retrieving subject attributes from reference images precisely, and filter out irrelevant information. RetriNet demonstrates impressive performance when compared to existing state-of-the-art approaches in face generation. We further propose a research and iteration friendly dataset, RetriBooru, to study a more difficult problem, concept composition. Finally, to better evaluate alignment between similarity and diversity or measure diversity that have been previously unaccounted for, we introduce a novel class of metrics named Similarity Weighted Diversity (SWD).
- Abstract(参考訳): 拡散に基づく新しい技術は、幅広い高品質な画像を作成する際の驚くべき能力を示し、様々な応用に多大な関心を呼んだ。
一般的なシナリオは、参照画像から被写体に基づいた新しい画像を生成することである。
この主題は、スタイル化されたアバター、仮想試着用の体と衣服などに対する顔認証である可能性がある。
この要件を満たすことは、主観駆動生成と呼ばれる分野へと進化しています。
本稿では,拡散モデルを用いた統合検索問題として,主観駆動生成を考察する。
本稿では,参照画像から対象属性を正確に抽出し,無関係な情報をフィルタリングすることで,これらの問題に対処し,解決するための新しい拡散モデルアーキテクチャRetriNetを紹介する。
RetriNetは、顔生成における既存の最先端アプローチと比較して、素晴らしいパフォーマンスを示している。
さらに、より難しい問題、概念構成を研究するために、研究とイテレーションフレンドリなデータセットRetriBooruを提案する。
最後に、類似度と多様性の整合性を評価するために、これまで考慮されていなかった多様性を測定するために、Simisity Weighted Diversity (SWD)と呼ばれる新しいメトリクスのクラスを導入する。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Pseudo-Pair based Self-Similarity Learning for Unsupervised Person
Re-identification [47.44945334929426]
擬似ペアを用いた自己相似学習手法を提案する。
本稿では,画像に擬似ラベルを付与する手法を提案する。
個々の画像から同相性を用いて局所的な識別特徴を学習し、同相性を介して画像間のパッチ対応を検出する。
論文 参考訳(メタデータ) (2022-07-09T04:05:06Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Semantic Diversity Learning for Zero-Shot Multi-label Classification [14.480713752871523]
本研究では,マルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。
本研究では,主埋め込みベクトルを持つ埋め込み行列を用いて,調整された損失関数を用いて訓練する。
さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。
論文 参考訳(メタデータ) (2021-05-12T19:39:07Z) - Person image generation with semantic attention network for person
re-identification [9.30413920076019]
本稿では,意味的注意ネットワークと呼ばれる新しい人物のポーズ誘導画像生成手法を提案する。
ネットワークはいくつかのセマンティックアテンションブロックで構成されており、各ブロックはポーズコードと衣服のテクスチャを保存および更新する。
他の方法と比較して、我々のネットワークはより優れた身体形状を特徴付けることができ、同時に衣服の属性を保持することができる。
論文 参考訳(メタデータ) (2020-08-18T12:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。