論文の概要: Add-SD: Rational Generation without Manual Reference
- arxiv url: http://arxiv.org/abs/2407.21016v1
- Date: Tue, 30 Jul 2024 17:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 16:21:06.179937
- Title: Add-SD: Rational Generation without Manual Reference
- Title(参考訳): Add-SD: 手作業による参照のない合理的生成
- Authors: Lingfeng Yang, Xinyu Zhang, Xiang Li, Jinwen Chen, Kun Yao, Gang Zhang, Errui Ding, Lingqiao Liu, Jingdong Wang, Jian Yang,
- Abstract要約: 命令ベースのオブジェクト付加パイプラインであるAdd-SDを導入し、オブジェクトを合理的なサイズと位置でリアルなシーンに自動的に挿入する。
我々の研究は、多数の指示されたイメージペアを含むデータセットの提案、合理的な生成のための拡散モデルの微調整、下流タスクを増強するための合成データの生成の3つの側面に寄与する。
- 参考スコア(独自算出の注目度): 83.01349699374524
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion models have exhibited remarkable prowess in visual generalization. Building on this success, we introduce an instruction-based object addition pipeline, named Add-SD, which automatically inserts objects into realistic scenes with rational sizes and positions. Different from layout-conditioned methods, Add-SD is solely conditioned on simple text prompts rather than any other human-costly references like bounding boxes. Our work contributes in three aspects: proposing a dataset containing numerous instructed image pairs; fine-tuning a diffusion model for rational generation; and generating synthetic data to boost downstream tasks. The first aspect involves creating a RemovalDataset consisting of original-edited image pairs with textual instructions, where an object has been removed from the original image while maintaining strong pixel consistency in the background. These data pairs are then used for fine-tuning the Stable Diffusion (SD) model. Subsequently, the pretrained Add-SD model allows for the insertion of expected objects into an image with good rationale. Additionally, we generate synthetic instances for downstream task datasets at scale, particularly for tail classes, to alleviate the long-tailed problem. Downstream tasks benefit from the enriched dataset with enhanced diversity and rationale. Experiments on LVIS val demonstrate that Add-SD yields an improvement of 4.3 mAP on rare classes over the baseline. Code and models are available at https://github.com/ylingfeng/Add-SD.
- Abstract(参考訳): 拡散モデルは視覚一般化において顕著な進歩を見せている。
この成功に基づいて、我々はAdd-SDと呼ばれる命令ベースのオブジェクト付加パイプラインを導入し、オブジェクトを合理的なサイズと位置でリアルなシーンに自動的に挿入する。
レイアウト条件の手法と異なり、Add-SDはバウンディングボックスのような人為的な参照ではなく、単純なテキストプロンプトでのみ条件付けされている。
我々の研究は、多数の指示されたイメージペアを含むデータセットの提案、合理的な生成のための拡散モデルの微調整、下流タスクを増強するための合成データの生成の3つの側面に寄与する。
最初の側面は、オリジナルの編集されたイメージペアとテキスト命令で構成されたDeleteDatasetを作成することであり、そこでは、背景の強いピクセル一貫性を維持しながら、オブジェクトが元のイメージから削除される。
これらのデータペアは、安定拡散(SD)モデルを微調整するために使用される。
その後、事前訓練されたAdd-SDモデルにより、良好な合理的な画像への期待対象の挿入が可能となる。
さらに、ダウンストリームタスクデータセットの大規模化、特にテールクラスのための合成インスタンスを生成して、長い尾の問題を緩和する。
下流タスクは、多様性と合理性を高めた豊富なデータセットの恩恵を受ける。
LVIS valの実験では、Add-SDはベースライン上の稀なクラスで4.3 mAPの改善をもたらすことが示された。
コードとモデルはhttps://github.com/ylingfeng/Add-SD.comで入手できる。
関連論文リスト
- Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - Unlocking Spatial Comprehension in Text-to-Image Diffusion Models [33.99474729408903]
CompFuserは、テキストから画像への生成モデルにおける空間的理解と属性割り当てを強化する画像生成パイプラインである。
我々のパイプラインは、シーン内のオブジェクト間の空間的関係を定義する命令の解釈を可能にする。
論文 参考訳(メタデータ) (2023-11-28T19:00:02Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z) - Expanding Small-Scale Datasets with Guided Imagination [92.5276783917845]
データセット拡張は、新しいラベル付きサンプルを自動生成することによって、使用可能な小さなデータセットを拡張することを目的とした、新しいタスクである。
GIFは、先行モデルの意味論的意味のある空間において、シードデータの潜伏した特徴を最適化することにより、データイマジネーションを行う。
GIF-SDは、SDによる非ガイド展開よりも、自然画像データセットのモデル精度が13.5%高い。
論文 参考訳(メタデータ) (2022-11-25T09:38:22Z) - Primitive3D: 3D Object Dataset Synthesis from Randomly Assembled
Primitives [44.03149443379618]
アノテーションで大量の3Dオブジェクトを自動生成するコスト効率のよい手法を提案する。
これらのオブジェクトはプリミティブから派生した部分ラベルで自動アノテーションされる。
生成したデータセットに対する学習のオーバーヘッドが大きいことを考慮し,データセットの蒸留戦略を提案する。
論文 参考訳(メタデータ) (2022-05-25T10:07:07Z) - Lifting 2D Object Locations to 3D by Discounting LiDAR Outliers across
Objects and Views [70.1586005070678]
本稿では,2次元マスクオブジェクトの予測と生のLiDAR点雲を自動的に3次元境界ボックスに変換するシステムを提案する。
これらの手法は, より複雑なパイプラインや3Dモデル, 付加的な人為的な事前情報ソースを使用するにもかかわらず, 従来よりもはるかに優れていた。
論文 参考訳(メタデータ) (2021-09-16T13:01:13Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。