論文の概要: Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning
- arxiv url: http://arxiv.org/abs/2605.21487v2
- Date: Fri, 22 May 2026 09:11:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 14:44:53.759739
- Title: Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning
- Title(参考訳): Uni-Edit:Intelligent Editingは統一モデルチューニングのための一般的なタスク
- Authors: Dian Zheng, Manyuan Zhang, Hongyu Li, Hongbo Liu, Kai Zou, Kaituo Feng, Hongsheng Li,
- Abstract要約: 我々は,Uniified Multimodal Models チューニングの最初の汎用タスクとして機能する,インテリジェントな画像編集タスクである Uni-Edit を提案する。
複雑な混合パイプラインとは異なり、Uni-Editは1つのタスク、1つのトレーニングステージ、1つのデータセットを使用して、3つの機能すべてのパフォーマンスを一度に改善する。
我々は,Uni-Editのみをチューニングすることで,補助的な操作を伴わずに,3つの機能にまたがる包括的な拡張を実現することを示す。
- 参考スコア(独自算出の注目度): 43.870883813242166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, enhancing Unified Multimodal Models (UMMs) with image understanding, generation, and editing capabilities mainly relies on mixed multi-task training. Due to inherent task conflicts, such strategy requires complex multi-stage pipelines, massive data mixing, and balancing tricks, merely resulting in a performance trade-off rather than true mutual reinforcement. To break this paradigm, we propose Uni-Edit, an intelligent image editing task that serves as the first general task for UMM tuning. Unlike complex mixed pipelines, Uni-Edit improves performance across all three abilities at once using only one task, one training stage, and one dataset. Specifically, we first identify image editing as an inherently ideal general task, as it naturally demands both visual understanding and generation. However, existing editing data relies on simplistic instructions that severely underutilize a model's understanding capacity. To address this, we introduce the first automated and scalable data synthesis pipeline for intelligent editing, transforming diverse VQA data into complex and effective editing instructions with embedded questions and nested logic. This yields Uni-Edit-148k, pairing diverse reasoning-intensive instructions with high-quality edited images. Extensive experiments on BAGEL and Janus-Pro demonstrate that tuning solely on Uni-Edit achieves comprehensive enhancements across all three capabilities without any auxiliary operations.
- Abstract(参考訳): 現在、イメージ理解、生成、編集機能を備えた統一マルチモーダルモデル(UMM)の強化は、主に混合マルチタスクトレーニングに依存している。
本来的なタスクの競合のため、このような戦略には複雑なマルチステージパイプライン、大規模なデータミキシング、バランシングのトリックが必要であり、真の相互強化ではなく、単にパフォーマンス上のトレードオフをもたらすだけである。
このパラダイムを破るために、UMMチューニングのための最初の一般的なタスクとして機能する、インテリジェントな画像編集タスクであるUni-Editを提案する。
複雑な混合パイプラインとは異なり、Uni-Editは1つのタスク、1つのトレーニングステージ、1つのデータセットを使用して、3つの機能すべてのパフォーマンスを一度に改善する。
具体的には、視覚的理解と生成の両方を自然に要求するので、まず画像編集を本質的に理想的な汎用タスクとして認識する。
しかし、既存の編集データは、モデルの理解能力を著しく過小評価する単純化的な命令に依存している。
これを解決するために、我々は、インテリジェントな編集のための最初の自動化されたスケーラブルなデータ合成パイプラインを導入し、様々なVQAデータを組込み質問やネストしたロジックで複雑な効率的な編集命令に変換する。
これによりUni-Edit-148kが得られ、様々な推論集約的な命令と高品質な編集画像とをペアリングする。
BAGELとJanus-Proの大規模な実験は、Uni-Editのみのチューニングが補助操作なしで3つの機能全体にわたって包括的な拡張を実現することを示した。
関連論文リスト
- Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - MIGE: Mutually Enhanced Multimodal Instruction-Based Image Generation and Editing [25.118495616895597]
MIGEはマルチモーダル命令を使ってタスク表現を標準化する統合フレームワークである。
まず、対象駆動生成を空白キャンバス上の生成として扱い、命令ベースの編集を既存の画像の修正として扱う。
MIGEは、命令ベースの主観的編集の新しいタスクにSOTAを設定しながら、主観的生成と命令に基づく編集の両面で優れている。
論文 参考訳(メタデータ) (2025-02-28T18:21:08Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。