論文の概要: Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
- arxiv url: http://arxiv.org/abs/2510.19808v1
- Date: Wed, 22 Oct 2025 17:43:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.24214
- Title: Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
- Title(参考訳): Pico-Banana-400K:テキストガイドによる画像編集のための大規模データセット
- Authors: Yusu Qian, Eli Bocek-Rivele, Liangchen Song, Jialing Tong, Yinfei Yang, Jiasen Lu, Wenze Hu, Zhe Gan,
- Abstract要約: Pico-Banana-400Kは、命令ベースの画像編集のための総合的な400Kイメージデータセットである。
我々のデータセットは、Nano-Bananaを利用して、実際の写真から多様な編集ペアを生成する。
この大規模で高品質でタスク豊富なリソースを提供することで、Pico-Banana-400Kは次世代のテキストガイド画像編集モデルのトレーニングとベンチマークのための堅牢な基盤を確立する。
- 参考スコア(独自算出の注目度): 40.13961086100904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal models have demonstrated remarkable text-guided image editing capabilities, with systems like GPT-4o and Nano-Banana setting new benchmarks. However, the research community's progress remains constrained by the absence of large-scale, high-quality, and openly accessible datasets built from real images. We introduce Pico-Banana-400K, a comprehensive 400K-image dataset for instruction-based image editing. Our dataset is constructed by leveraging Nano-Banana to generate diverse edit pairs from real photographs in the OpenImages collection. What distinguishes Pico-Banana-400K from previous synthetic datasets is our systematic approach to quality and diversity. We employ a fine-grained image editing taxonomy to ensure comprehensive coverage of edit types while maintaining precise content preservation and instruction faithfulness through MLLM-based quality scoring and careful curation. Beyond single turn editing, Pico-Banana-400K enables research into complex editing scenarios. The dataset includes three specialized subsets: (1) a 72K-example multi-turn collection for studying sequential editing, reasoning, and planning across consecutive modifications; (2) a 56K-example preference subset for alignment research and reward model training; and (3) paired long-short editing instructions for developing instruction rewriting and summarization capabilities. By providing this large-scale, high-quality, and task-rich resource, Pico-Banana-400K establishes a robust foundation for training and benchmarking the next generation of text-guided image editing models.
- Abstract(参考訳): マルチモーダルモデルの最近の進歩は、GPT-4oやNano-Bananaなどのシステムが新しいベンチマークを設定するなど、テキスト誘導画像編集機能に顕著な成果を上げている。
しかし、研究コミュニティの進歩は、実際の画像から構築された大規模で高品質でオープンにアクセス可能なデータセットが存在しないことによる制約が残っている。
命令ベースの画像編集のための総合的な400K画像データセットであるPico-Banana-400Kを紹介する。
このデータセットはNano-Bananaを利用して,OpenImagesコレクション内の実際の写真から多種多様な編集ペアを生成する。
Pico-Banana-400Kと以前の合成データセットを区別するのは、品質と多様性に対する体系的なアプローチです。
我々は、MLLMによる品質評価と注意深いキュレーションを通じて、正確なコンテンツ保存と指導の忠実さを維持しつつ、編集タイプの包括的カバレッジを確保するために、きめ細かい画像編集分類を用いる。
シングルターン編集以外にも、Pico-Banana-400Kは複雑な編集シナリオの研究を可能にする。
本データセットは,(1)連続的な編集,推論,計画を行うための72K-example Multi-turnコレクション,(2)アライメント研究と報酬モデルトレーニングのための56K-example preferenceサブセット,(3)命令書き換えと要約機能を開発するためのペア長短編集命令を含む。
この大規模で高品質でタスク豊富なリソースを提供することで、Pico-Banana-400Kは次世代のテキストガイド画像編集モデルのトレーニングとベンチマークのための堅牢な基盤を確立する。
関連論文リスト
- Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。
本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。
画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文 参考訳(メタデータ) (2025-05-25T22:40:59Z) - HumanEdit: A High-Quality Human-Rewarded Dataset for Instruction-based Image Editing [93.06156989757994]
HumanEditは5,751枚の画像で構成され、4段階にわたる2500時間以上の人的作業を必要とする。
データセットには、Action、Add、Counting、Relation、Remove、Replaceの6つの異なるタイプの編集命令が含まれている。
HumanEditは、さまざまなドメインから提供された、包括的な多様性と高解像度の1024倍の1024ドルのコンテンツを提供する。
論文 参考訳(メタデータ) (2024-12-05T16:00:59Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - HQ-Edit: A High-Quality Dataset for Instruction-based Image Editing [38.13162627140172]
HQ-Editは、約20万の編集が可能な高品質な命令ベースの画像編集データセットである。
高品質を確実にするために、多様なサンプルはまずオンラインで収集され、拡張され、次に高品質なディプチチを作るために使用される。
HQ-Editは、細部が豊富で包括的な編集プロンプトを伴う高解像度の画像を編集し、既存の画像編集モデルの能力を大幅に強化する。
論文 参考訳(メタデータ) (2024-04-15T17:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。