論文の概要: Describe, Don't Dictate: Semantic Image Editing with Natural Language Intent
- arxiv url: http://arxiv.org/abs/2508.20505v1
- Date: Thu, 28 Aug 2025 07:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.160305
- Title: Describe, Don't Dictate: Semantic Image Editing with Natural Language Intent
- Title(参考訳): Describe, Don't Dictate: Semantic Image Editing with Natural Language Intent
- Authors: En Ci, Shanyan Guan, Yanhao Ge, Yilin Zhang, Wei Li, Zhenyu Zhang, Jian Yang, Ying Tai,
- Abstract要約: そこで我々は,DescriptiveEditという記述型プロンプトベースの編集フレームワークを提案する。
中心となる考え方は「参照画像に基づくテキスト・ツー・イメージ生成」としての命令ベースの画像編集を再構築することである。
- 参考スコア(独自算出の注目度): 38.61468007698179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the progress in text-to-image generation, semantic image editing remains a challenge. Inversion-based algorithms unavoidably introduce reconstruction errors, while instruction-based models mainly suffer from limited dataset quality and scale. To address these problems, we propose a descriptive-prompt-based editing framework, named DescriptiveEdit. The core idea is to re-frame `instruction-based image editing' as `reference-image-based text-to-image generation', which preserves the generative power of well-trained Text-to-Image models without architectural modifications or inversion. Specifically, taking the reference image and a prompt as input, we introduce a Cross-Attentive UNet, which newly adds attention bridges to inject reference image features into the prompt-to-edit-image generation process. Owing to its text-to-image nature, DescriptiveEdit overcomes limitations in instruction dataset quality, integrates seamlessly with ControlNet, IP-Adapter, and other extensions, and is more scalable. Experiments on the Emu Edit benchmark show it improves editing accuracy and consistency.
- Abstract(参考訳): テキスト・画像生成の進歩にもかかわらず、セマンティック画像編集は依然として課題である。
インバージョンベースのアルゴリズムは必然的に再構成エラーを導入し、命令ベースのモデルは、主にデータセットの品質とスケールの制限に悩まされている。
これらの問題に対処するため,DescriptiveEdit という記述型プロンプトベースの編集フレームワークを提案する。
中心となる考え方は「インストラクションベースの画像編集」を「参照画像ベースのテキスト画像生成」として再編成することであり、アーキテクチャの変更や逆変換なしに、よく訓練されたテキスト画像モデルの生成力を保っている。
具体的には、参照画像とプロンプトを入力として、参照画像の特徴をプロンプト・ツー・エジット・イメージ生成プロセスに注入するための注意ブリッジを新たに追加するクロスアテンティブUNetを導入する。
テキストとイメージの性質のため、DescriptiveEditは命令データセットの品質の制限を克服し、ControlNet、IP-Adapter、その他の拡張とシームレスに統合し、よりスケーラブルである。
Emu Editベンチマークの実験では、編集精度と一貫性が改善されている。
関連論文リスト
- FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction [31.95664918050255]
FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
論文 参考訳(メタデータ) (2024-09-26T17:18:39Z) - DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images [55.546024767130994]
本稿では,画像のどの部分を変更するか,保存するかを明確に推論することで,画像エディタのテキストベースの制御を強化する新しいモデルを提案する。
元のソースイメージの記述と必要な更新を反映する命令と入力イメージとの間の単語アライメントに依存する。
Bisonデータセットのサブセットと、Dreamと呼ばれる自己定義データセットで評価される。
論文 参考訳(メタデータ) (2024-04-27T22:45:47Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - Text-to-image Editing by Image Information Removal [19.464349486031566]
原画像から色関連およびテクスチャ関連情報を選択的に消去する画像情報除去モジュール(IIR)を用いたテキスト画像編集モデルを提案する。
CUB、Outdoor Scenes、COCOに関する我々の実験は、編集された画像が以前の作業よりも35%多く好まれていることを示している。
論文 参考訳(メタデータ) (2023-05-27T14:48:05Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。