論文の概要: RetriBooru: Leakage-Free Retrieval of Conditions from Reference Images for Subject-Driven Generation
- arxiv url: http://arxiv.org/abs/2312.02521v3
- Date: Tue, 22 Oct 2024 20:52:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:53:46.288646
- Title: RetriBooru: Leakage-Free Retrieval of Conditions from Reference Images for Subject-Driven Generation
- Title(参考訳): RetriBooru: 主観的生成のための基準画像からの漏れのない条件検索
- Authors: Haoran Tang, Jieren Deng, Zhihong Pan, Hao Tian, Pratik Chaudhari, Xin Zhou,
- Abstract要約: 拡散に基づく手法は、様々な高品質な画像を生成する能力を実証している。
顔と布の同一性の両方でアニメキャラクターをグループ化するマルチレベル同一性データセットRetriBooruを提案する。
条件付きエンコーダは複数の参照画像から異なる概念を検索する。
- 参考スコア(独自算出の注目度): 30.143033020296183
- License:
- Abstract: Diffusion-based methods have demonstrated remarkable capabilities in generating a diverse array of high-quality images, sparking interests for styled avatars, virtual try-on, and more. Previous methods use the same reference image as the target. An overlooked aspect is the leakage of the target's spatial information, style, etc. from the reference, harming the generated diversity and causing shortcuts. However, this approach continues as widely available datasets usually consist of single images not grouped by identities, and it is expensive to recollect large-scale same-identity data. Moreover, existing metrics adopt decoupled evaluation on text alignment and identity preservation, which fail at distinguishing between balanced outputs and those that over-fit to one aspect. In this paper, we propose a multi-level, same-identity dataset RetriBooru, which groups anime characters by both face and cloth identities. RetriBooru enables adopting reference images of the same character and outfits as the target, while keeping flexible gestures and actions. We benchmark previous methods on our dataset, and demonstrate the effectiveness of training with a reference image different from target (but same identity). We introduce a new concept composition task, where the conditioning encoder learns to retrieve different concepts from several reference images, and modify a baseline network RetriNet for the new task. Finally, we introduce a novel class of metrics named Similarity Weighted Diversity (SWD), to measure the overlooked diversity and better evaluate the alignment between similarity and diversity.
- Abstract(参考訳): 拡散に基づく手法は、多種多様な高品質な画像を生成し、スタイル付アバターや仮想トライオンなどの興味を喚起する際、顕著な能力を示した。
以前の手法では、ターゲットと同じ参照イメージを使用していた。
見過ごされた側面は、参照からターゲットの空間情報、スタイル等を漏洩させ、生成された多様性を害し、ショートカットを引き起こすことである。
しかし、このアプローチは通常、IDによってグループ化されていない単一のイメージで構成されるため、大規模な同一性データの再収集は高価である。
さらに、既存のメトリクスは、テキストアライメントとアイデンティティ保存の分離された評価を採用しており、これはバランスの取れた出力と、1つの側面に過度に適合する出力の区別に失敗する。
本稿では,顔と布の両方でアニメキャラクタをグループ化するマルチレベル同一性データセットRetriBooruを提案する。
RetriBooruは、フレキシブルなジェスチャーとアクションを維持しながら、ターゲットと同じキャラクタと衣装のリファレンスイメージを採用することができる。
我々は,データセット上で過去の手法をベンチマークし,対象と異なる参照画像(同一の同一性)でトレーニングの有効性を実証する。
そこで,コンディショニングエンコーダが複数の参照画像から異なる概念を検索し,ベースラインネットワークRetriNetを新しいタスクに修正する,新しいコンセプトコンポジションタスクを提案する。
最後に、見過ごされた多様性を測定し、類似性と多様性の整合性をよりよく評価するために、Simisity Weighted Diversity (SWD)と呼ばれる新しいメトリクスのクラスを導入する。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Pseudo-Pair based Self-Similarity Learning for Unsupervised Person
Re-identification [47.44945334929426]
擬似ペアを用いた自己相似学習手法を提案する。
本稿では,画像に擬似ラベルを付与する手法を提案する。
個々の画像から同相性を用いて局所的な識別特徴を学習し、同相性を介して画像間のパッチ対応を検出する。
論文 参考訳(メタデータ) (2022-07-09T04:05:06Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Semantic Diversity Learning for Zero-Shot Multi-label Classification [14.480713752871523]
本研究では,マルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。
本研究では,主埋め込みベクトルを持つ埋め込み行列を用いて,調整された損失関数を用いて訓練する。
さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。
論文 参考訳(メタデータ) (2021-05-12T19:39:07Z) - Person image generation with semantic attention network for person
re-identification [9.30413920076019]
本稿では,意味的注意ネットワークと呼ばれる新しい人物のポーズ誘導画像生成手法を提案する。
ネットワークはいくつかのセマンティックアテンションブロックで構成されており、各ブロックはポーズコードと衣服のテクスチャを保存および更新する。
他の方法と比較して、我々のネットワークはより優れた身体形状を特徴付けることができ、同時に衣服の属性を保持することができる。
論文 参考訳(メタデータ) (2020-08-18T12:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。