論文の概要: Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing
- arxiv url: http://arxiv.org/abs/2407.20232v1
- Date: Mon, 29 Jul 2024 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:55:07.151134
- Title: Specify and Edit: Overcoming Ambiguity in Text-Based Image Editing
- Title(参考訳): テキストベースの画像編集における曖昧さを克服する仕様と編集
- Authors: Ekaterina Iakovleva, Fabio Pizzati, Philip Torr, Stéphane Lathuilière,
- Abstract要約: 拡散型編集システムのためのゼロショット推論パイプラインを提案する。
入力命令を特定の命令に分解するために,大言語モデル (LLM) を用いる。
我々のパイプラインは、編集モデルの解釈可能性を改善し、出力の多様性を高めます。
- 参考スコア(独自算出の注目度): 24.316956641791034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-based editing diffusion models exhibit limited performance when the user's input instruction is ambiguous. To solve this problem, we propose $\textit{Specify ANd Edit}$ (SANE), a zero-shot inference pipeline for diffusion-based editing systems. We use a large language model (LLM) to decompose the input instruction into specific instructions, i.e. well-defined interventions to apply to the input image to satisfy the user's request. We benefit from the LLM-derived instructions along the original one, thanks to a novel denoising guidance strategy specifically designed for the task. Our experiments with three baselines and on two datasets demonstrate the benefits of SANE in all setups. Moreover, our pipeline improves the interpretability of editing models, and boosts the output diversity. We also demonstrate that our approach can be applied to any edit, whether ambiguous or not. Our code is public at https://github.com/fabvio/SANE.
- Abstract(参考訳): テキストベースの編集拡散モデルは、ユーザの入力命令があいまいである場合に限られた性能を示す。
この問題を解決するために、拡散ベースの編集システムのためのゼロショット推論パイプラインである$\textit{Specify ANd Edit}$ (SANE)を提案する。
我々は、入力命令を特定の命令に分解するために、大きな言語モデル(LLM)を用いる。
我々は,この課題に特化して設計された新しい指導戦略のおかげで,LLMに基づく指導の恩恵を受けることができる。
3つのベースラインと2つのデータセットによる実験は、すべての設定においてSANEの利点を実証している。
さらに、我々のパイプラインは、編集モデルの解釈可能性を改善し、出力の多様性を高める。
また、あいまいかどうかに関わらず、我々のアプローチがどんな編集にも適用可能であることも示しています。
私たちのコードはhttps://github.com/fabvio/SANE.comで公開されています。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - InstructAny2Pix: Flexible Visual Editing via Multimodal Instruction Following [26.457571615782985]
InstructAny2Pixは、ユーザが音声、画像、テキストを含む命令を使って入力画像を編集できるフレキシブルなマルチモーダル命令フォローシステムである。
本システムでは,命令誘導型編集タスクを複数実施できることを実証する。
論文 参考訳(メタデータ) (2023-12-11T17:53:45Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - XATU: A Fine-grained Instruction-based Benchmark for Explainable Text Updates [7.660511135287692]
本稿では,微粒な命令ベースの説明可能なテキスト編集用に設計された最初のベンチマークであるXATUを紹介する。
XATUは、語彙、構文、意味論、知識集約的な編集といった難易度の細かいテキスト編集タスクについて検討している。
各種編集タスクにおける命令チューニングの有効性と基礎となるアーキテクチャの影響を実証する。
論文 参考訳(メタデータ) (2023-09-20T04:58:59Z) - InstructEdit: Improving Automatic Masks for Diffusion-based Image
Editing With User Instructions [46.88926203020054]
InstructEdit というフレームワークを提案し,ユーザ命令に基づいてきめ細かい編集を行う。
本手法は, より微細な編集アプリケーションにおいて, 従来の編集方法よりも優れていた。
論文 参考訳(メタデータ) (2023-05-29T12:24:58Z) - SKED: Sketch-guided Text-based 3D Editing [49.019881133348775]
我々は,NeRFで表される3次元形状を編集する技術であるSKEDを提案する。
我々の手法は、異なる視点からの2つのガイドスケッチを使用して、既存のニューラルネットワークを変化させる。
本稿では,ベースインスタンスの密度と放射率を保ちつつ,所望の編集を生成する新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-19T18:40:44Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。