Fugu-MT 論文翻訳(概要): HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

論文の概要: HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing

arxiv url: http://arxiv.org/abs/2404.09990v1
Date: Mon, 15 Apr 2024 17:59:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 21:18:05.997963
Title: HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing
Title（参考訳）: HQ-Edit: インストラクションベースの画像編集のための高品質データセット
Authors: Mude Hui, Siwei Yang, Bingchen Zhao, Yichun Shi, Heng Wang, Peng Wang, Yuyin Zhou, Cihang Xie,
Abstract要約: HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。 HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
参考スコア（独自算出の注目度）: 38.13162627140172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study introduces HQ-Edit, a high-quality instruction-based image editing dataset with around 200,000 edits. Unlike prior approaches relying on attribute guidance or human feedback on building datasets, we devise a scalable data collection pipeline leveraging advanced foundation models, namely GPT-4V and DALL-E 3. To ensure its high quality, diverse examples are first collected online, expanded, and then used to create high-quality diptychs featuring input and output images with detailed text prompts, followed by precise alignment ensured through post-processing. In addition, we propose two evaluation metrics, Alignment and Coherence, to quantitatively assess the quality of image edit pairs using GPT-4V. HQ-Edits high-resolution images, rich in detail and accompanied by comprehensive editing prompts, substantially enhance the capabilities of existing image editing models. For example, an HQ-Edit finetuned InstructPix2Pix can attain state-of-the-art image editing performance, even surpassing those models fine-tuned with human-annotated data. The project page is https://thefllood.github.io/HQEdit_web.
Abstract（参考訳）: 本研究では,約20万の編集が可能な高品質な命令ベースの画像編集データセットであるHQ-Editを紹介する。 GPT-4VやDALL-E 3.0といった高度な基盤モデルを活用したスケーラブルなデータ収集パイプラインを考案しました。高品質を確実にするために、様々なサンプルをオンラインで収集し、拡張し、その後、詳細なテキストプロンプトを備えた入力および出力画像を含む高品質なディプチッチを作成し、その後、後処理によって正確なアライメントが保証される。さらに,GPT-4Vを用いて画像編集ペアの品質を定量的に評価するために,アライメントとコヒーレンスという2つの評価指標を提案する。 HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。例えば、HQ-Editで微調整されたInstructPix2Pixは最先端の画像編集性能を達成できる。プロジェクトページはhttps://thefllood.github.io/HQEdit_web。

関連論文リスト

Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。 GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文参考訳（メタデータ） (2025-04-24T17:25:12Z)
DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。このコラボレーションは、編集性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-12-22T17:17:28Z)
InsightEdit: Towards Better Instruction Following for Image Editing [12.683378605956024]
InstructPix2Pix, InstructDiffusion, SmartEditといった以前の作業では、エンドツーエンドの編集が検討されている。 MLLM(Multimodal Large Language Models)によるテキスト的特徴と視覚的特徴の両方を利用した2ストリームブリッジ機構を提案する。 InsightEditは,従来の画像との背景の整合性を保ちながら,複雑な命令の追従に優れ,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-26T11:11:10Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-11-06T15:19:24Z)
Multi-Reward as Condition for Instruction-based Image Editing [32.77114231615961]
そこで本研究では,地味画像の品質を改良する代わりに,多視点報酬データを用いたトレーニングデータ品質問題に対処することを提案する。実験により、我々のマルチリワード条件付きモデルは、2つの人気のある編集パイプラインにおいて非リワードモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-11-06T05:02:29Z)
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [43.222251591410455]
本稿では,大規模(約400万の編集サンプル)な画像編集のためのデータセットを自動生成するUltraEditを提案する。私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
論文参考訳（メタデータ） (2024-07-07T06:50:22Z)
SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。自動パイプラインによって生成された高品質な編集データ。インターネットから収集された実世界のシナリオデータ。人間によって注釈付けされた高精度マルチターン編集データ。
論文参考訳（メタデータ） (2024-05-07T04:55:47Z)
Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文参考訳（メタデータ） (2023-11-28T15:31:11Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。 EditGANは前例のない細部と自由度で画像を操作可能であることを示す。また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文参考訳（メタデータ） (2021-11-04T22:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。