Fugu-MT 論文翻訳(概要): Rethinking Scribble-Guided Image Editing: Generalization, Instruction Adherence, and Multi-Tasking

論文の概要: Rethinking Scribble-Guided Image Editing: Generalization, Instruction Adherence, and Multi-Tasking

arxiv url: http://arxiv.org/abs/2605.25568v1
Date: Mon, 25 May 2026 08:20:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:19.468654
Title: Rethinking Scribble-Guided Image Editing: Generalization, Instruction Adherence, and Multi-Tasking
Title（参考訳）: Scribble-Guided Image Editing: Generalization, Instruction Adherence, Multi-Tasking
Authors: Mingyi Xu, Jinpeng Lin, Min Zhou, Tiezheng Ge, Ming Zeng,
Abstract要約: スクリブル誘導画像編集により、ユーザーは単純なスクリブルアノテーションとテキストプロンプトを組み合わせることで、画像の編集場所と編集方法の両方を指定できる。既存のモデルは、特にマルチタスクシナリオにおいて、このパラダイムの下で不安定なパフォーマンスを示す。オープンソース編集モデルを用いて実証的研究を行い、一般化における非対称性を明らかにする。
参考スコア（独自算出の注目度）: 14.173267480504842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scribble-guided image editing allows users to combine simple scribble annotations with text prompts to specify both where and how an image should be edited, enabling flexible interaction with precise spatial control. However, existing models still exhibit unstable performance under this paradigm, especially in multi-task scenarios. To improve performance, we conduct empirical studies using an open-source editing model and reveal an asymmetry in generalization: instruction-level generalization, including across editing tasks and from single-task to multi-task settings, is more challenging than image-domain generalization, such as from synthetic to real-world images or from mosaicked to regular images. This suggests that the primary bottleneck lies in insufficient learning for diverse editing instructions rather than in the image domain gap. Motivated by this insight, we propose three strategies: (a) a Coverage-then-Realism Curriculum, a two-stage pipeline that first builds large-scale synthetic, instruction-rich data for broad task supervision, then curates a small set of real-world data to refine generation realism; (b) Multi-Task Mosaicking, which constructs multi-task training samples by concatenating single-task examples at nearly zero cost while enabling the learned capability to generalize to non-mosaicked images; and (c) an Edit-Focused Loss, which leverages the changed regions between input and output images in synthetic data to focus training on edited regions, improving both learning efficiency and editing accuracy. With these strategies, we substantially improve both single-task and multi-task scribble-guided editing on the VIBE benchmark, achieving state-of-the-art results. We will publicly release our dataset and model.
Abstract（参考訳）: スクリブル誘導画像編集により、ユーザーは単純なスクリブルアノテーションとテキストプロンプトを組み合わせることで、画像の編集場所と編集方法の両方を指定できる。しかし、既存のモデルは、特にマルチタスクシナリオにおいて、このパラダイムの下で不安定なパフォーマンスを示す。そこで我々は,オープンソース編集モデルを用いて実験的な研究を行い,非対称性の一般化を明らかにした: 編集タスクや単一タスクからマルチタスク設定を含む命令レベルの一般化は,合成画像から実世界の画像,あるいはモザイク画像から正規画像まで,画像領域の一般化よりも難しい。これは、画像領域のギャップではなく、多様な編集命令に対する学習不足が主なボトルネックであることを示唆している。この洞察に感動して、私たちは3つの戦略を提案します。 (a)Coverage-then-Realism Curriculumは、2段階のパイプラインで、まず、広範囲なタスクの監督のために大規模な合成と命令に富んだデータを構築し、その後、少数の実世界のデータをキュレートして、生成リアリズムを洗練させる。 b)マルチタスクモザイキングは、学習能力を非モザイク画像に一般化させつつ、シングルタスク例をほぼゼロコストで連結することにより、マルチタスクトレーニングサンプルを構築する。 (c) 合成データ中の入力画像と出力画像の間の変化領域を活用して、編集領域に焦点を合わせ、学習効率と編集精度を向上する編集焦点ロス。これらの戦略により、VIBEベンチマークにおけるシングルタスクとマルチタスクスクリブルガイダンスの両方の編集が大幅に改善され、最先端の結果が得られます。データセットとモデルを公開します。

関連論文リスト

Uni-Edit: Intelligent Editing Is A General Task For Unified Model Tuning [43.870883813242166]
我々は,Uniified Multimodal Models チューニングの最初の汎用タスクとして機能する,インテリジェントな画像編集タスクである Uni-Edit を提案する。複雑な混合パイプラインとは異なり、Uni-Editは1つのタスク、1つのトレーニングステージ、1つのデータセットを使用して、3つの機能すべてのパフォーマンスを一度に改善する。我々は,Uni-Editのみをチューニングすることで,補助的な操作を伴わずに,3つの機能にまたがる包括的な拡張を実現することを示す。
論文参考訳（メタデータ） (2026-05-20T17:59:42Z)
WeEdit: A Dataset, Benchmark and Glyph-Guided Framework for Text-centric Image Editing [103.68419705566146]
WeEditは、スケーラブルなデータ構築パイプラインと2つのベンチマーク、2段階のトレーニング戦略を含む、システマティックなソリューションである。具体的には、多様な編集操作と15言語をカバーする330Kのトレーニングペアを生成するHTMLベースの新しい自動編集パイプラインを提案する。アルゴリズム面では、グリフ誘導による微調整を用いて、空間的および内容的事前の明示を注入し、次いで、命令の順守、テキストの明瞭さ、背景の保存と、生成を整合させる多目的強化学習ステージを用いる。
論文参考訳（メタデータ） (2026-03-12T06:25:09Z)
ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning [20.61925053714293]
画像編集システムは複雑な、間接的な、多段階のユーザー命令に悩まされることが多い。本稿では,画像編集のためのマルチエージェントフレームワークであるImageEdit-R1を提案する。本手法は,画像編集を逐次意思決定問題として扱い,動的かつコンテキスト対応な編集戦略を実現する。
論文参考訳（メタデータ） (2026-03-09T07:50:14Z)
UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文参考訳（メタデータ） (2025-11-03T07:24:57Z)
Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文参考訳（メタデータ） (2025-05-25T22:40:59Z)
Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。 ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文参考訳（メタデータ） (2024-08-23T22:16:34Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-24T16:30:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。