論文の概要: ScribbleEdit: Synthetic Data for Image Editing with Scribbles and Text
- arxiv url: http://arxiv.org/abs/2605.01135v2
- Date: Tue, 05 May 2026 03:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 14:45:21.239125
- Title: ScribbleEdit: Synthetic Data for Image Editing with Scribbles and Text
- Title(参考訳): ScribbleEdit:スクリブルとテキストによる画像編集のための合成データ
- Authors: Anya Ji, George Ma, Téa Wright, Yiming Zhang, David M. Chan, Alane Suhr, Somayeh Sojoudi,
- Abstract要約: ScribbleEditは、このギャップを埋めるために設計された大規模な合成データセットである。
拡散ベースおよび自己回帰型統合マルチモーダル画像編集モデルの評価と精細化を行う。
実験の結果,市販のモデルでは抽象的なスクリブル入力に苦しむ一方で,合成データセットの微調整により,空間的整合性や意味的整合性のある編集が大幅に向上することがわかった。
- 参考スコア(独自算出の注目度): 26.951462580463883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in generative models has significantly advanced image editing capabilities, yet precise and intuitive user control remains difficult. Specifically, users often struggle to communicate both exact spatial layouts and specific semantic details simultaneously. While natural language instructions effectively convey high-level semantics like texture and color, they lack spatial specificity. Conversely, freehand scribbles provide rough spatial boundaries but cannot express detailed visual attributes. Consequently, achieving precise control requires combining both modalities. However, existing models struggle to jointly interpret abstract scribbles alongside text due to a lack of specialized training data. In this work, we introduce ScribbleEdit, a large-scale synthetic dataset designed to bridge this gap by combining natural language instructions with freehand scribble inputs for more accurate, controllable edits. We construct this dataset through a synthetic pipeline that automatically generates source-target image pairs via inpainting, which are then paired with human-drawn scribbles and VLM-generated text instructions. Using ScribbleEdit, we evaluate and finetune both diffusion-based and autoregressive unified multimodal image editing models. Our experiments reveal that while off-the-shelf models struggle with abstract scribble inputs, finetuning on our synthetic dataset significantly improves their ability to generate spatially aligned and semantically consistent edits.
- Abstract(参考訳): 生成モデルの最近の進歩は画像編集機能を大幅に進歩させたが、正確かつ直感的なユーザ制御は依然として困難である。
具体的には、ユーザーは正確な空間レイアウトと特定の意味の詳細の両方を同時に通信するのに苦労することが多い。
自然言語命令はテクスチャや色のような高レベルの意味を効果的に伝達するが、空間的特異性は欠如している。
逆に、自由手文字は粗い空間境界を提供するが、詳細な視覚特性は表現できない。
したがって、正確な制御を達成するには、両方のモダリティを組み合わせる必要がある。
しかし、既存のモデルは、特別な訓練データがないため、テキストとともに抽象スクリブルを共同で解釈するのに苦労している。
本研究では,このギャップを埋めるための大規模合成データセットであるScribbleEditを紹介する。
我々は,このデータセットを合成パイプラインで構築し,インペインティングによりソースとターゲットの画像ペアを自動的に生成し,それを人間の描画したスクリブルとVLM生成したテキスト命令と組み合わせる。
ScribbleEditを用いて、拡散ベースと自己回帰型統合マルチモーダル画像編集モデルの両方を評価し、微調整する。
実験の結果,市販のモデルでは抽象的なスクリブル入力に苦しむ一方で,合成データセットの微調整により,空間的整合性や意味的整合性のある編集が大幅に向上することがわかった。
関連論文リスト
- All-in-One Conditioning for Text-to-Image Synthesis [45.22434803596108]
シーングラフ構造の枠組みの中で,テキストと画像の合成を基盤とする新しい手法を提案する。
推論中にソフトな視覚誘導を生成するゼロショットシーングラフベースの条件付け機構を導入する。
これにより、軽量でコヒーレントで多様な画像合成をサポートしながら、テキストイメージのアライメントを維持することができる。
論文 参考訳(メタデータ) (2026-02-09T20:16:19Z) - ScribbleSense: Generative Scribble-Based Texture Editing with Intent Prediction [5.109590115201006]
ScribbleSenseは、マルチモーダル大言語モデル(MLLM)と画像生成モデルを組み合わせた編集方法である。
我々はMLLMの視覚的能力を活用し、スクリブルの背後にある編集意図を予測する。
局所的なテクスチャの詳細を抽出するために,グローバルに生成された画像を用いる。
論文 参考訳(メタデータ) (2026-01-30T01:55:44Z) - DreamOmni3: Scribble-based Editing and Generation [72.52583595391944]
私たちはDream Omni3を紹介し、データ生成とフレームワーク設計という2つの課題に取り組みます。
スクリブル・インストラクション・ベースの編集、スクリブル・マルチモーダル・インストラクション・ベース・ジェネレーション、およびドゥードル生成の4つのタスクを定義する。
フレームワークでは,バイナリマスクの代わりに,オリジナル画像とスクリブル画像の両方をモデルに入力するジョイント入力方式を提案する。
論文 参考訳(メタデータ) (2025-12-27T09:07:12Z) - SAEdit: Token-level control for continuous image editing via Sparse AutoEncoder [52.754326452329956]
本稿では,テキスト埋め込みのトークンレベルの操作を通じて,アンタングルと連続的な編集を行う手法を提案する。
編集は、対象属性の強度を制御する、慎重に選択された方向に沿って埋め込みを操作することで行われる。
本手法は,拡散過程を変更せずにテキスト埋め込みを直接操作し,画像のバックボーンに広く適用可能な,非依存なモデルとする。
論文 参考訳(メタデータ) (2025-10-06T17:51:04Z) - Scribble-Guided Diffusion for Training-free Text-to-Image Generation [17.930032337081673]
Scribble-Guided Diffusion (ScribbleDiff)は、単純なユーザが提供するスクリブルを視覚的プロンプトとして利用して画像生成を誘導する、トレーニング不要のアプローチである。
モーメントアライメントとスクリブル伝搬を導入し、生成した画像とスクリブル入力のより効果的で柔軟なアライメントを可能にする。
論文 参考訳(メタデータ) (2024-09-12T13:13:07Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。