論文の概要: Retrieving Conditions from Reference Images for Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02521v1
- Date: Tue, 5 Dec 2023 06:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:40:07.262558
- Title: Retrieving Conditions from Reference Images for Diffusion Models
- Title(参考訳): 拡散モデルにおける参照画像からの条件抽出
- Authors: Haoran Tang, Xin Zhou, Jieren Deng, Zhihong Pan, Hao Tian, Pratik
Chaudhari
- Abstract要約: 改良されたデータセットと評価が望まれるだけでなく、条件付き画像からのみ関連情報を取得するためのより慎重な方法が期待されている。
このデータセットによって実現された新しいタスクを述べ、これらのタスクを完了させる成功を測定するための新しい多様性指標を導入します。
- 参考スコア(独自算出の注目度): 31.940034690882747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion-based subject driven generative methods have enabled image
generations with good fidelity for specific objects or human portraits.
However, to achieve better versatility for applications, we argue that not only
improved datasets and evaluations are desired, but also more careful methods to
retrieve only relevant information from conditional images are anticipated. To
this end, we propose an anime figures dataset RetriBooru-V1, with enhanced
identity and clothing labels. We state new tasks enabled by this dataset, and
introduce a new diversity metric to measure success in completing these tasks,
quantifying the flexibility of image generations. We establish an RAG-inspired
baseline method, designed to retrieve precise conditional information from
reference images. Then, we compare with current methods on existing task to
demonstrate the capability of the proposed method. Finally, we provide baseline
experiment results on new tasks, and conduct ablation studies on the possible
structural choices.
- Abstract(参考訳): 近年の拡散に基づく被写体駆動生成法は、特定の物体や人間の肖像画に忠実な画像生成を可能にしている。
しかし,アプリケーションの汎用性を向上するためには,改良されたデータセットや評価が望まれるだけでなく,条件付き画像からのみ関連情報を取得するためのより慎重な方法が期待されている。
この目的のために,idと衣料ラベルが強化されたアニメ図形データセットretribooru-v1を提案する。
このデータセットによって実現された新しいタスクを述べるとともに、これらのタスクを完了させる成功を計測し、画像生成の柔軟性を定量化するための新しい多様性指標を導入する。
参照画像から正確な条件情報を取得するために,ragにインスパイアされたベースライン手法を確立した。
次に,既存のタスクにおける現在の手法と比較し,提案手法の能力を示す。
最後に,新しいタスクのベースライン実験結果を提供し,可能な構造選択に関するアブレーション研究を行う。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Revolutionizing Text-to-Image Retrieval as Autoregressive Token-to-Voken Generation [90.71613903956451]
テキスト・ツー・イメージ検索はマルチメディア処理における基本的な課題である。
本稿では,AVGという自己回帰ボウケン生成手法を提案する。
AVGは有効性と有効性の両方において優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-24T13:39:51Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - DiffusePast: Diffusion-based Generative Replay for Class Incremental
Semantic Segmentation [73.54038780856554]
クラスインクリメンタルセマンティック(CISS)は、新たに追加されたクラスを漸進的に学習することで、従来のセグメンテーションタスクを拡張する。
これは、事前訓練されたGANから生成された古いクラスサンプルを再生するものである。
そこで我々はDiffusePastを提案する。DiffusePastは拡散型生成再生モジュールを特徴とする新しいフレームワークで、異なる命令でより信頼性の高いマスクで意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2023-08-02T13:13:18Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Pseudo-Pair based Self-Similarity Learning for Unsupervised Person
Re-identification [47.44945334929426]
擬似ペアを用いた自己相似学習手法を提案する。
本稿では,画像に擬似ラベルを付与する手法を提案する。
個々の画像から同相性を用いて局所的な識別特徴を学習し、同相性を介して画像間のパッチ対応を検出する。
論文 参考訳(メタデータ) (2022-07-09T04:05:06Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Semantic Diversity Learning for Zero-Shot Multi-label Classification [14.480713752871523]
本研究では,マルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。
本研究では,主埋め込みベクトルを持つ埋め込み行列を用いて,調整された損失関数を用いて訓練する。
さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。
論文 参考訳(メタデータ) (2021-05-12T19:39:07Z) - Person image generation with semantic attention network for person
re-identification [9.30413920076019]
本稿では,意味的注意ネットワークと呼ばれる新しい人物のポーズ誘導画像生成手法を提案する。
ネットワークはいくつかのセマンティックアテンションブロックで構成されており、各ブロックはポーズコードと衣服のテクスチャを保存および更新する。
他の方法と比較して、我々のネットワークはより優れた身体形状を特徴付けることができ、同時に衣服の属性を保持することができる。
論文 参考訳(メタデータ) (2020-08-18T12:18:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。