論文の概要: AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea
- arxiv url: http://arxiv.org/abs/2411.15738v1
- Date: Sun, 24 Nov 2024 07:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:20:55.172698
- Title: AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea
- Title(参考訳): AnyEdit: どんなアイデアでも、統一された高品質な画像編集をマスターする
- Authors: Qifan Yu, Wei Chow, Zhongqi Yue, Kaihang Pan, Yang Wu, Xiaoyang Wan, Juncheng Li, Siliang Tang, Hanwang Zhang, Yueting Zhuang,
- Abstract要約: 我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
- 参考スコア(独自算出の注目度): 88.79769371584491
- License:
- Abstract: Instruction-based image editing aims to modify specific image elements with natural language instructions. However, current models in this domain often struggle to accurately execute complex user instructions, as they are trained on low-quality data with limited editing types. We present AnyEdit, a comprehensive multi-modal instruction editing dataset, comprising 2.5 million high-quality editing pairs spanning over 20 editing types and five domains. We ensure the diversity and quality of the AnyEdit collection through three aspects: initial data diversity, adaptive editing process, and automated selection of editing results. Using the dataset, we further train a novel AnyEdit Stable Diffusion with task-aware routing and learnable task embedding for unified image editing. Comprehensive experiments on three benchmark datasets show that AnyEdit consistently boosts the performance of diffusion-based editing models. This presents prospects for developing instruction-driven image editing models that support human creativity.
- Abstract(参考訳): インストラクションベースの画像編集は、特定の画像要素を自然言語で修正することを目的としている。
しかし、この領域の現在のモデルは、編集タイプに制限のある低品質のデータで訓練されているため、複雑なユーザー命令を正確に実行するのに苦労することが多い。
我々は、20以上の編集タイプと5つのドメインにまたがる、250万の高品質な編集ペアからなる総合的なマルチモーダルな命令編集データセットであるAnyEditを紹介する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
このデータセットを用いて、タスク対応ルーティングと学習可能なタスク埋め込みにより、統合された画像編集のための新しいAnyEdit安定拡散をトレーニングする。
3つのベンチマークデータセットに関する総合的な実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
これにより、人間の創造性を支援する命令駆動画像編集モデルの開発が期待できる。
関連論文リスト
- ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [43.222251591410455]
本稿では,大規模(約400万の編集サンプル)な画像編集のためのデータセットを自動生成するUltraEditを提案する。
私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
論文 参考訳(メタデータ) (2024-07-07T06:50:22Z) - SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。
自動パイプラインによって生成された高品質な編集データ。
インターネットから収集された実世界のシナリオデータ。
人間によって注釈付けされた高精度マルチターン編集データ。
論文 参考訳(メタデータ) (2024-05-07T04:55:47Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。