論文の概要: ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2603.20644v1
- Date: Sat, 21 Mar 2026 04:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.013085
- Title: ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework
- Title(参考訳): ScaleEdit-12M: マルチエージェントフレームワークによるオープンソースの画像編集データのスケーリング
- Authors: Guanzhou Chen, Erfei Cui, Changyao Tian, Danni Yang, Ganlin Yang, Yu Qiao, Hongsheng Li, Gen Luo, Hongjie Zhang,
- Abstract要約: 大規模で高品質な画像編集データセットをエンドツーエンドに構築するための階層的マルチエージェントフレームワークであるScaleEditorを提案する。
パイプラインは3つの重要なコンポーネントから構成される:ワールド知識注入によるソース画像拡張、適応型マルチエージェント編集命令画像合成、タスク認識データ品質検証機構である。
ScaleEditorを使って、これまでで最大のオープンソースの画像編集データセットであるScaleEdit-12Mをキュレートします。
- 参考スコア(独自算出の注目度): 58.443783258153786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-based image editing has emerged as a key capability for unified multimodal models (UMMs), yet constructing large-scale, diverse, and high-quality editing datasets without costly proprietary APIs remains challenging. Previous image editing datasets either rely on closed-source models for annotation, which prevents cost-effective scaling, or employ fixed synthetic editing pipelines, which suffer from limited quality and generalizability. To address these challenges, we propose ScaleEditor, a fully open-source hierarchical multi-agent framework for end-to-end construction of large-scale, high-quality image editing datasets. Our pipeline consists of three key components: source image expansion with world-knowledge infusion, adaptive multi-agent editing instruction-image synthesis, and a task-aware data quality verification mechanism. Using ScaleEditor, we curate ScaleEdit-12M, the largest open-source image editing dataset to date, spanning 23 task families across diverse real and synthetic domains. Fine-tuning UniWorld-V1 and Bagel on ScaleEdit yields consistent gains, improving performance by up to 10.4% on ImgEdit and 35.1% on GEdit for general editing benchmarks and by up to 150.0% on RISE and 26.5% on KRIS-Bench for knowledge-infused benchmarks. These results demonstrate that open-source, agentic pipelines can approach commercial-grade data quality while retaining cost-effectiveness and scalability. Both the framework and dataset will be open-sourced.
- Abstract(参考訳): 命令ベースの画像編集は、統一マルチモーダルモデル(UMM)の重要な機能として登場したが、高価なプロプライエタリなAPIを使わずに、大規模で多様な高品質な編集データセットを構築することは、依然として困難である。
以前の画像編集データセットはアノテーションのクローズドソースモデルに依存しており、コスト効率のよいスケーリングを防いでいる。
これらの課題に対処するために,大規模で高品質な画像編集データセットをエンドツーエンドに構築するための,オープンソースの階層型マルチエージェントフレームワークであるScaleEditorを提案する。
パイプラインは3つの重要なコンポーネントから構成される:ワールド知識注入によるソース画像拡張、適応型マルチエージェント編集命令画像合成、タスク認識データ品質検証機構である。
ScaleEditorを使って、これまでで最大のオープンソースの画像編集データセットであるScaleEdit-12Mをキュレートします。
微調整のUniWorld-V1とBagel on ScaleEditは、ImgEditで10.4%、GEditで35.1%、RISEで150.0%、KRIS-Benchで26.5%向上した。
これらの結果は、オープンソースのエージェントパイプラインが、コスト効率とスケーラビリティを維持しながら、商用レベルのデータ品質にアプローチ可能であることを示している。
フレームワークとデータセットはいずれもオープンソースになる予定だ。
関連論文リスト
- VIBE: Visual Instruction Based Editor [60.21587335143115]
本稿では,高速な命令に基づく画像編集パイプラインを提案する。
パイプラインはImgEditとGEditベンチマークで評価される。
BF16ではNVIDIA H100で最大2K解像度で編集画像を生成するが、追加の推論最適化や蒸留は行わない。
論文 参考訳(メタデータ) (2026-01-05T16:17:20Z) - ImgEdit: A Unified Image Editing Dataset and Benchmark [14.185771939071149]
大規模な画像編集データセットであるImgEditを紹介した。
ImgEditはタスクノベルティとデータ品質の両方で既存のデータセットを上回っている。
画像編集性能を評価するためのベンチマークであるImgEdit-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-26T17:53:33Z) - Step1X-Edit: A Practical Framework for General Image Editing [64.07202539610576]
我々は、Step1X-Editと呼ばれる最先端の画像編集モデルをリリースする。
GPT-4oやGemini2 Flashのようなクローズドソースモデルと同等のパフォーマンスを提供できる。
評価のために,実世界のユーザ指示に根ざした新しいベンチマークであるGEdit-Benchを開発した。
論文 参考訳(メタデータ) (2025-04-24T17:25:12Z) - UltraEdit: Instruction-based Fine-Grained Image Editing at Scale [43.222251591410455]
本稿では,大規模(約400万の編集サンプル)な画像編集のためのデータセットを自動生成するUltraEditを提案する。
私たちのキーとなるアイデアは、InstructPix2PixやMagicBrushといった既存の画像編集データセットの欠点に対処し、大規模で高品質な画像編集サンプルを作成するための体系的なアプローチを提供することです。
論文 参考訳(メタデータ) (2024-07-07T06:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。