論文の概要: MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image
Editing
- arxiv url: http://arxiv.org/abs/2306.10012v2
- Date: Wed, 29 Nov 2023 21:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 20:22:30.955957
- Title: MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image
Editing
- Title(参考訳): MagicBrush:手書きの注釈付き画像編集用データセット
- Authors: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
- Abstract要約: MagicBrushは、命令誘導の実画像編集のための、手動で手動の大規模データセットである。
人による評価により,新しいモデルによりより優れた画像が生成できることが示される。
- 参考スコア(独自算出の注目度): 51.716531083146315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-guided image editing is widely needed in daily life, ranging from
personal use to professional applications such as Photoshop. However, existing
methods are either zero-shot or trained on an automatically synthesized
dataset, which contains a high volume of noise. Thus, they still require lots
of manual tuning to produce desirable outcomes in practice. To address this
issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/),
the first large-scale, manually annotated dataset for instruction-guided real
image editing that covers diverse scenarios: single-turn, multi-turn,
mask-provided, and mask-free editing. MagicBrush comprises over 10K manually
annotated triplets (source image, instruction, target image), which supports
trainining large-scale text-guided image editing models. We fine-tune
InstructPix2Pix on MagicBrush and show that the new model can produce much
better images according to human evaluation. We further conduct extensive
experiments to evaluate current image editing baselines from multiple
dimensions including quantitative, qualitative, and human evaluations. The
results reveal the challenging nature of our dataset and the gap between
current baselines and real-world editing needs.
- Abstract(参考訳): テキスト誘導画像編集は、個人使用からPhotoshopなどのプロフェッショナルアプリケーションまで、日常生活で広く必要とされる。
しかし、既存の手法はゼロショットか、あるいは大量のノイズを含む自動合成データセットで訓練されている。
したがって、実際に望ましい結果を出すためには、まだ多くの手動チューニングが必要です。
この問題に対処するために、私たちはmagicbrush(https://osu-nlp-group.github.io/magicbrush/)を紹介します。これは、シングルターン、マルチターン、マスク提供、マスクフリーの編集といったさまざまなシナリオをカバーする、命令誘導の実画像編集のための、最初の大規模で手作業によるデータセットです。
MagicBrushは、手動で注釈付けされたトリプル(ソースイメージ、命令、ターゲットイメージ)で構成されており、大規模なテキスト誘導画像編集モデルのトレーニングをサポートする。
MagicBrushでInstructPix2Pixを微調整し、新しいモデルが人間の評価に応じてはるかに優れた画像を生成することを示す。
さらに、定量的、質的、人間的評価を含む多次元から現在の画像編集ベースラインを評価するための広範な実験を行う。
その結果、データセットの難易度と現在のベースラインと現実世界の編集ニーズのギャップが明らかになった。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。
omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。
当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文 参考訳(メタデータ) (2024-11-11T18:21:43Z) - Multi-Reward as Condition for Instruction-based Image Editing [32.77114231615961]
そこで本研究では,地味画像の品質を改良する代わりに,多視点報酬データを用いたトレーニングデータ品質問題に対処することを提案する。
実験により、我々のマルチリワード条件付きモデルは、2つの人気のある編集パイプラインにおいて非リワードモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-06T05:02:29Z) - UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [43.222251591410455]
本稿では,大規模(約400万の編集サンプル)な画像編集のためのデータセットを自動生成するUltraEditを提案する。
私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
論文 参考訳(メタデータ) (2024-07-07T06:50:22Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - EditWorld: Simulating World Dynamics for Instruction-Following Image Editing [68.6224340373457]
拡散モデルは画像編集の性能を大幅に改善した。
本稿では,様々な世界シナリオに根ざした命令を定義し,分類する,世界指導による画像編集について紹介する。
本手法は,既存の編集方法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-23T16:54:17Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。