論文の概要: HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing
- arxiv url: http://arxiv.org/abs/2404.09990v1
- Date: Mon, 15 Apr 2024 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 21:18:05.997963
- Title: HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing
- Title(参考訳): HQ-Edit: インストラクションベースの画像編集のための高品質データセット
- Authors: Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie,
- Abstract要約: HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。
高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。
HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
- 参考スコア(独自算出の注目度): 38.13162627140172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.
- Abstract(参考訳): 本研究では,約20万の編集が可能な高品質な命令ベースの画像編集データセットであるHQ-Editを紹介する。
GPT-4VやDALL-E 3.0といった高度な基盤モデルを活用したスケーラブルなデータ収集パイプラインを考案しました。
高品質を確実にするために、様々なサンプルをオンラインで収集し、拡張し、その後、詳細なテキストプロンプトを備えた入力および出力画像を含む高品質なディプチッチを作成し、その後、後処理によって正確なアライメントが保証される。
さらに,GPT-4Vを用いて画像編集ペアの品質を定量的に評価するために,アライメントとコヒーレンスという2つの評価指標を提案する。
HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
例えば、HQ-Editで微調整されたInstructPix2Pixは最先端の画像編集性能を達成できる。
プロジェクトページはhttps://thefllood.github.io/HQEdit_web。
関連論文リスト
- ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - Multi-Reward as Condition for Instruction-based Image Editing [32.77114231615961]
そこで本研究では,地味画像の品質を改良する代わりに,多視点報酬データを用いたトレーニングデータ品質問題に対処することを提案する。
実験により、我々のマルチリワード条件付きモデルは、2つの人気のある編集パイプラインにおいて非リワードモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-06T05:02:29Z) - Image Inpainting Models are Effective Tools for Instruction-guided Image Editing [42.63350374074953]
CVPR2024 GenAI Media Generation Challenge Workshop's Instruction-guided Image Editing Trackの優勝作品である。
4段階のプロセスIIIE (Inpainting-based Instruction-Guided Image Editing): カテゴリ分類、主編集対象識別、編集マスク取得、画像インパインティング。
その結果,言語モデルと画像インパインティングモデルの適切な組み合わせによって,パイプラインは視覚的品質を満足して高い成功率を達成することができた。
論文 参考訳(メタデータ) (2024-07-18T03:55:33Z) - UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [43.222251591410455]
本稿では,大規模(約400万の編集サンプル)な画像編集のためのデータセットを自動生成するUltraEditを提案する。
私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
論文 参考訳(メタデータ) (2024-07-07T06:50:22Z) - SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。
自動パイプラインによって生成された高品質な編集データ。
インターネットから収集された実世界のシナリオデータ。
人間によって注釈付けされた高精度マルチターン編集データ。
論文 参考訳(メタデータ) (2024-05-07T04:55:47Z) - AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks [41.640692114423544]
我々はビデオ編集を簡単にするための新しいチューニング不要のパラダイムであるAnyV2Vを紹介する。
AnyV2Vは、既存の画像編集ツールを利用して、幅広いビデオ編集タスクをサポートすることができる。
評価の結果,AnyV2Vは他のベースライン法に匹敵するCLIPスコアが得られた。
論文 参考訳(メタデータ) (2024-03-21T15:15:00Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。