論文の概要: HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing
- arxiv url: http://arxiv.org/abs/2412.04280v1
- Date: Thu, 05 Dec 2024 16:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:39:43.123809
- Title: HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing
- Title(参考訳): HumanEdit: インストラクションベースの画像編集のための高品質なヒューマンリワードデータセット
- Authors: Jinbin Bai, Wei Chow, Ling Yang, Xiangtai Li, Juncheng Li, Hanwang Zhang, Shuicheng Yan,
- Abstract要約: HumanEditは5,751枚の画像で構成され、4段階にわたる2500時間以上の人的作業を必要とする。
データセットには、Action、Add、Counting、Relation、Remove、Replaceの6つの異なるタイプの編集命令が含まれている。
HumanEditは、さまざまなドメインから提供された、包括的な多様性と高解像度の1024倍の1024ドルのコンテンツを提供する。
- 参考スコア(独自算出の注目度): 93.06156989757994
- License:
- Abstract: We present HumanEdit, a high-quality, human-rewarded dataset specifically designed for instruction-guided image editing, enabling precise and diverse image manipulations through open-form language instructions. Previous large-scale editing datasets often incorporate minimal human feedback, leading to challenges in aligning datasets with human preferences. HumanEdit bridges this gap by employing human annotators to construct data pairs and administrators to provide feedback. With meticulously curation, HumanEdit comprises 5,751 images and requires more than 2,500 hours of human effort across four stages, ensuring both accuracy and reliability for a wide range of image editing tasks. The dataset includes six distinct types of editing instructions: Action, Add, Counting, Relation, Remove, and Replace, encompassing a broad spectrum of real-world scenarios. All images in the dataset are accompanied by masks, and for a subset of the data, we ensure that the instructions are sufficiently detailed to support mask-free editing. Furthermore, HumanEdit offers comprehensive diversity and high-resolution $1024 \times 1024$ content sourced from various domains, setting a new versatile benchmark for instructional image editing datasets. With the aim of advancing future research and establishing evaluation benchmarks in the field of image editing, we release HumanEdit at \url{https://huggingface.co/datasets/BryanW/HumanEdit}.
- Abstract(参考訳): 提案するHumanEditは、命令誘導画像編集用に設計された高品質で人間向きのデータセットであり、オープンフォーム言語命令による高精度で多様な画像操作を可能にする。
以前の大規模な編集データセットには、最小限の人間のフィードバックが組み込まれていたため、データセットを人間の好みに合わせることの難しさにつながった。
HumanEditは、人間のアノテーションを使ってデータペアと管理者を構築し、フィードバックを提供することで、このギャップを埋める。
厳密なキュレーションによって、HumanEditは5,751枚の画像で構成され、4段階にわたる2500時間以上の人的作業を必要とし、幅広い画像編集タスクの正確性と信頼性を保証する。
データセットには、Action、Add、Counting、Relation、Remove、Replaceの6つの異なるタイプの編集命令が含まれている。
データセット内のすべての画像にはマスクが付属しており、データのサブセットについては、マスクのない編集をサポートするために十分な詳細化が保証されている。
さらに、HumanEditは、さまざまなドメインからソースされた、包括的な多様性と高解像度の1024ドルのコンテンツを提供する。
画像編集分野における今後の研究の進展と評価ベンチマークの確立を目的として,我々はHumanEdit at \url{https://huggingface.co/datasets/BryanW/HumanEdit} をリリースする。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - EditWorld: Simulating World Dynamics for Instruction-Following Image Editing [68.6224340373457]
拡散モデルは画像編集の性能を大幅に改善した。
本稿では,様々な世界シナリオに根ざした命令を定義し,分類する,世界指導による画像編集について紹介する。
本手法は,既存の編集方法よりも大幅に優れる。
論文 参考訳(メタデータ) (2024-05-23T16:54:17Z) - SEED-Data-Edit Technical Report: A Hybrid Dataset for Instructional Image Editing [53.00272278754867]
SEED-Data-Editは命令誘導画像編集のためのハイブリッドデータセットである。
自動パイプラインによって生成された高品質な編集データ。
インターネットから収集された実世界のシナリオデータ。
人間によって注釈付けされた高精度マルチターン編集データ。
論文 参考訳(メタデータ) (2024-05-07T04:55:47Z) - UniHuman: A Unified Model for Editing Human Images in the Wild [49.896715833075106]
実環境における画像編集の複数の側面に対処する統一モデルUniHumanを提案する。
モデルの生成品質と一般化能力を向上させるために,人間の視覚エンコーダからのガイダンスを利用する。
ユーザスタディでは、UniHumanは平均して77%のケースでユーザに好まれる。
論文 参考訳(メタデータ) (2023-12-22T05:00:30Z) - MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing [48.204992417461575]
MagicBrushは、命令誘導の実画像編集のための、手動で手動の大規模データセットである。
人による評価により,新しいモデルによりより優れた画像が生成できることが示される。
論文 参考訳(メタデータ) (2023-06-16T17:58:58Z) - HIVE: Harnessing Human Feedback for Instructional Visual Editing [127.29436858998064]
本稿では,ヒューマンフィードバックを利用した指導視覚編集(HIVE)のための新しいフレームワークを提案する。
具体的には、編集された画像に対する人間のフィードバックを収集し、報酬関数を学習して、基礎となるユーザの好みをキャプチャする。
次に、推定報酬に基づいて人間の好みを組み込むスケーラブルな拡散モデル微調整手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T19:47:41Z) - Edited Media Understanding: Reasoning About Implications of Manipulated
Images [38.67475806191228]
画像編集の意図と意味を捉えたオープンエンドの質問に答えるためにモデルを必要とする編集メディア理解のタスクを提示します。
我々は,タスクに対する様々な視覚・言語モデルの評価を行い,事前学習型マルチモーダル表現の最近の進歩を基盤とした新しいモデルPELICANを導入する。
我々のモデルはデータセット上で有望な結果を得ており、その答えを40.35%の正確さで評価している。
論文 参考訳(メタデータ) (2020-12-08T20:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。