論文の概要: GalaxyEdit: Large-Scale Image Editing Dataset with Enhanced Diffusion Adapter
- arxiv url: http://arxiv.org/abs/2411.13794v1
- Date: Thu, 21 Nov 2024 02:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:16.517493
- Title: GalaxyEdit: Large-Scale Image Editing Dataset with Enhanced Diffusion Adapter
- Title(参考訳): GalaxyEdit: 拡張拡散アダプタを備えた大規模画像編集データセット
- Authors: Aniruddha Bala, Rohan Jaiswal, Loay Rashid, Siddharth Roheda,
- Abstract要約: GalaxyEditは、操作の追加と削除のための大規模な画像編集データセットである。
データセット上のSD v1.5モデルを微調整し、我々のモデルがより広い範囲のオブジェクトを処理できることに気付きました。
デバイス上での使用シナリオを考慮して、タスク固有の軽量アダプタを含むように研究を拡張します。
- 参考スコア(独自算出の注目度): 1.7624347338410742
- License:
- Abstract: Training of large-scale text-to-image and image-to-image models requires a huge amount of annotated data. While text-to-image datasets are abundant, data available for instruction-based image-to-image tasks like object addition and removal is limited. This is because of the several challenges associated with the data generation process, such as, significant human effort, limited automation, suboptimal end-to-end models, data diversity constraints and high expenses. We propose an automated data generation pipeline aimed at alleviating such limitations, and introduce GalaxyEdit - a large-scale image editing dataset for add and remove operations. We fine-tune the SD v1.5 model on our dataset and find that our model can successfully handle a broader range of objects and complex editing instructions, outperforming state-of-the-art methods in FID scores by 11.2\% and 26.1\% for add and remove tasks respectively. Furthermore, in light of on-device usage scenarios, we expand our research to include task-specific lightweight adapters leveraging the ControlNet-xs architecture. While ControlNet-xs excels in canny and depth guided generation, we propose to improve the communication between the control network and U-Net for more intricate add and remove tasks. We achieve this by enhancing ControlNet-xs with non-linear interaction layers based on Volterra filters. Our approach outperforms ControlNet-xs in both add/remove and canny-guided image generation tasks, highlighting the effectiveness of the proposed enhancement.
- Abstract(参考訳): 大規模なテキスト・ツー・イメージモデルとイメージ・ツー・イメージモデルのトレーニングには、大量の注釈付きデータが必要である。
テキスト・ツー・イメージのデータセットは豊富だが、オブジェクトの追加や削除といったインストラクションベースのイメージ・ツー・イメージタスクで利用できるデータは限られている。
これは、大量の人的努力、限定された自動化、最適なエンド・ツー・エンド・モデル、データの多様性の制約、高いコストなど、データ生成プロセスに関連するいくつかの課題のためです。
本稿では,このような制約を緩和することを目的とした自動データ生成パイプラインを提案し,操作の追加と削除のための大規模画像編集データセットであるGalaxyEditを紹介する。
我々は、データセット上のSD v1.5モデルを微調整し、我々のモデルが広範囲のオブジェクトと複雑な編集命令をうまく扱えることを発見し、FIDスコアにおける最先端のメソッドをそれぞれ11.2\%、タスクの追加と削除に26.1\%で上回ります。
さらに、オンデバイス利用のシナリオを考慮して、ControlNet-xsアーキテクチャを活用するタスク固有の軽量アダプタを含むように研究を拡張します。
ControlNet-xs はキャニーおよびディープガイド生成に優れるが,より複雑なタスクの追加・削除のために制御ネットワークと U-Net 間の通信を改善することを提案する。
我々は、Volterraフィルタに基づく非線形相互作用層を用いた制御ネット-xの強化により、これを実現する。
提案手法は,追加/削除およびカニー誘導画像生成タスクにおいて,制御ネット-xよりも優れ,提案手法の有効性を強調した。
関連論文リスト
- In-Context LoRA for Diffusion Transformers [49.288489286276146]
テキスト・ツー・イメージのDiTは、チューニングなしでテキスト内生成を効果的に行うことができることを示す。
我々は、我々のモデル In-Context LoRA (IC-LoRA) を命名する。
我々のパイプラインは、プロンプトにより忠実な高忠実度画像セットを生成する。
論文 参考訳(メタデータ) (2024-10-31T09:45:00Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。
自動パイプラインによって生成された高品質な編集データ。
インターネットから収集された実世界のシナリオデータ。
人間によって注釈付けされた高精度マルチターン編集データ。
論文 参考訳(メタデータ) (2024-05-07T04:55:47Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Let Segment Anything Help Image Dehaze [12.163299570927302]
低レベルコンピュータビジョンタスクに先立って,大規模モデルを統合するためのフレームワークを提案する。
低レベル視覚タスクの導出における大規模モデルの有効性と適用性を示す。
論文 参考訳(メタデータ) (2023-06-28T02:02:19Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z) - Unsupervised data augmentation for object detection [13.465808931940595]
本稿では,GAN(Generative Adversarial Networks)を用いて,教師なしデータ拡張を行うフレームワークを提案する。
YOLOv4の最近の最高性能に基づいて,物体が一定の位置にある画像を生成する2段階のパイプラインを提案する。
論文 参考訳(メタデータ) (2021-04-30T13:02:42Z) - AdderSR: Towards Energy Efficient Image Super-Resolution [127.61437479490047]
本稿では,加算器ニューラルネットワーク(AdderNet)を用いた単一画像超解問題について検討する。
畳み込みニューラルネットワークと比較して、AdderNetは加算を利用して出力特性を計算し、従来の乗算の膨大なエネルギー消費を回避する。
論文 参考訳(メタデータ) (2020-09-18T15:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。