論文の概要: Retrieving Conditions from Reference Images for Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.02521v1
- Date: Tue, 5 Dec 2023 06:04:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 16:40:07.262558
- Title: Retrieving Conditions from Reference Images for Diffusion Models
- Title(参考訳): 拡散モデルにおける参照画像からの条件抽出
- Authors: Haoran Tang, Xin Zhou, Jieren Deng, Zhihong Pan, Hao Tian, Pratik
Chaudhari
- Abstract要約: 改良されたデータセットと評価が望まれるだけでなく、条件付き画像からのみ関連情報を取得するためのより慎重な方法が期待されている。
このデータセットによって実現された新しいタスクを述べ、これらのタスクを完了させる成功を測定するための新しい多様性指標を導入します。
- 参考スコア(独自算出の注目度): 31.940034690882747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent diffusion-based subject driven generative methods have enabled image
generations with good fidelity for specific objects or human portraits.
However, to achieve better versatility for applications, we argue that not only
improved datasets and evaluations are desired, but also more careful methods to
retrieve only relevant information from conditional images are anticipated. To
this end, we propose an anime figures dataset RetriBooru-V1, with enhanced
identity and clothing labels. We state new tasks enabled by this dataset, and
introduce a new diversity metric to measure success in completing these tasks,
quantifying the flexibility of image generations. We establish an RAG-inspired
baseline method, designed to retrieve precise conditional information from
reference images. Then, we compare with current methods on existing task to
demonstrate the capability of the proposed method. Finally, we provide baseline
experiment results on new tasks, and conduct ablation studies on the possible
structural choices.
- Abstract(参考訳): 近年の拡散に基づく被写体駆動生成法は、特定の物体や人間の肖像画に忠実な画像生成を可能にしている。
しかし,アプリケーションの汎用性を向上するためには,改良されたデータセットや評価が望まれるだけでなく,条件付き画像からのみ関連情報を取得するためのより慎重な方法が期待されている。
この目的のために,idと衣料ラベルが強化されたアニメ図形データセットretribooru-v1を提案する。
このデータセットによって実現された新しいタスクを述べるとともに、これらのタスクを完了させる成功を計測し、画像生成の柔軟性を定量化するための新しい多様性指標を導入する。
参照画像から正確な条件情報を取得するために,ragにインスパイアされたベースライン手法を確立した。
次に,既存のタスクにおける現在の手法と比較し,提案手法の能力を示す。
最後に,新しいタスクのベースライン実験結果を提供し,可能な構造選択に関するアブレーション研究を行う。
関連論文リスト
- Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - ImageBind: One Embedding Space To Bind Them All [41.46167013891263]
ImageBindは、6つの異なるモードにまたがる共同埋め込みを学ぶためのアプローチだ。
画像ペアデータだけがモダリティを結合するのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-09T17:59:07Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Unifying Remote Sensing Image Retrieval and Classification with Robust
Fine-tuning [3.6526118822907594]
新しい大規模トレーニングおよびテストデータセットであるSF300で、リモートセンシングイメージの検索と分類を統一することを目指しています。
本研究では,ImageNetの事前学習ベースラインと比較して,9つのデータセットの検索性能と分類性能を体系的に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-26T11:01:30Z) - Continual Learning for Blind Image Quality Assessment [80.55119990128419]
ブラインド画像品質評価(BIQA)モデルは、サブポピュレーションシフトに継続的に適応できない。
最近の研究では、利用可能なすべての人間評価のIQAデータセットの組み合わせに関するBIQAメソッドのトレーニングが推奨されている。
モデルがIQAデータセットのストリームから継続的に学習するBIQAの継続的学習を策定する。
論文 参考訳(メタデータ) (2021-02-19T03:07:01Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。