論文の概要: I2Edit: Towards Multi-turn Interactive Image Editing via Dialogue
- arxiv url: http://arxiv.org/abs/2303.11108v1
- Date: Mon, 20 Mar 2023 13:45:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:16:40.878393
- Title: I2Edit: Towards Multi-turn Interactive Image Editing via Dialogue
- Title(参考訳): I2Edit:対話によるマルチターンインタラクティブ画像編集を目指して
- Authors: Xing Cui, Zekun Li, Peipei Li, Yibo Hu, Hailin Shi, Zhaofeng He
- Abstract要約: 本稿では、対話による顔画像編集に焦点を当て、新しいベンチマークデータセットであるMulti-turn Interactive Image Editing (I2Edit)を導入する。
データセットはCelebA-HQデータセット上に構築され、ユーザ編集要求に対応するマルチターンダイアログでアノテートされたイメージを持つ。
- 参考スコア(独自算出の注目度): 30.795335893336958
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although there have been considerable research efforts on controllable facial
image editing, the desirable interactive setting where the users can interact
with the system to adjust their requirements dynamically hasn't been well
explored. This paper focuses on facial image editing via dialogue and
introduces a new benchmark dataset, Multi-turn Interactive Image Editing
(I2Edit), for evaluating image editing quality and interaction ability in
real-world interactive facial editing scenarios. The dataset is constructed
upon the CelebA-HQ dataset with images annotated with a multi-turn dialogue
that corresponds to the user editing requirements. I2Edit is challenging, as it
needs to 1) track the dynamically updated user requirements and edit the images
accordingly, as well as 2) generate the appropriate natural language response
to communicate with the user. To address these challenges, we propose a
framework consisting of a dialogue module and an image editing module. The
former is for user edit requirements tracking and generating the corresponding
indicative responses, while the latter edits the images conditioned on the
tracked user edit requirements. In contrast to previous works that simply treat
multi-turn interaction as a sequence of single-turn interactions, we extract
the user edit requirements from the whole dialogue history instead of the
current single turn. The extracted global user edit requirements enable us to
directly edit the input raw image to avoid error accumulation and attribute
forgetting issues. Extensive quantitative and qualitative experiments on the
I2Edit dataset demonstrate the advantage of our proposed framework over the
previous single-turn methods. We believe our new dataset could serve as a
valuable resource to push forward the exploration of real-world, complex
interactive image editing. Code and data will be made public.
- Abstract(参考訳): 制御可能な顔画像編集にはかなりの研究努力が続けられているが、ユーザが動的に要求を調整するためにシステムと対話できる望ましいインタラクティブな設定は、十分に検討されていない。
本稿では,対話による顔画像編集に焦点を当て,実世界の対話的顔画像編集シナリオにおける画像編集品質と対話性を評価するためのベンチマークデータセットであるMulti-turn Interactive Image Editing (I2Edit)を導入する。
データセットはCelebA-HQデータセット上に構築され、ユーザ編集要求に対応するマルチターンダイアログでアノテートされる。
I2Editは必要に応じて難しい
1)動的に更新されたユーザ要件を追跡し,それに従って画像を編集する。
2) ユーザとのコミュニケーションに適した自然言語応答を生成する。
これらの課題に対処するために,対話モジュールと画像編集モジュールからなるフレームワークを提案する。
前者は、ユーザの編集要求を追跡し、対応する表示応答を生成し、後者は、追跡されたユーザの編集要求に基づいて条件付けられた画像を編集する。
マルチターンインタラクションを単一ターンインタラクションのシーケンスとして単純に扱う従来の作業とは対照的に,現在のシングルターンではなく,対話履歴全体からユーザ編集要求を抽出する。
抽出されたグローバルなユーザ編集要件により、入力された生画像を直接編集して、エラーの蓄積や、忘れる問題への属性付けを回避できる。
I2Editデータセットの大規模な定量的および定性的実験は、従来のシングルターン方式よりも提案したフレームワークの利点を実証する。
われわれの新しいデータセットは、現実世界の複雑なインタラクティブな画像編集の探求を促進する貴重なリソースになると考えている。
コードとデータは公開されます。
関連論文リスト
- EditScribe: Non-Visual Image Editing with Natural Language Verification Loops [12.16675723509151]
EditScribeは、大規模なマルチモーダルモデルを利用した自然言語検証ループを使用して画像編集を可能にするプロトタイプシステムである。
ユーザはまず、最初のジェネリクスとオブジェクト記述を通じて画像内容を理解し、その後、オープンな自然言語プロンプトを使用して編集動作を指定する。
視覚障害者10名を対象にした調査では、EditScribeが画像編集動作を非視覚的に実行し、検証することを支援した。
論文 参考訳(メタデータ) (2024-08-13T04:40:56Z) - BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DialogPaint: A Dialog-based Image Editing Model [21.51417302677082]
DialogPaintは、画像編集との対話をブリッジする新しいフレームワークである。
対話モデルを安定拡散画像変換技術と統合することにより、DialogPaintは画像修正に対してより直感的でインタラクティブなアプローチを提供する。
論文 参考訳(メタデータ) (2023-03-17T15:54:30Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.8726256912376]
Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。
我々の重要な洞察は、GANラテント空間における連続的な「セマンティック場」をモデル化することである。
本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
論文 参考訳(メタデータ) (2021-09-09T17:17:59Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。