論文の概要: CHATEDIT: Towards Multi-turn Interactive Facial Image Editing via
Dialogue
- arxiv url: http://arxiv.org/abs/2303.11108v3
- Date: Mon, 16 Oct 2023 04:04:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:50:18.171028
- Title: CHATEDIT: Towards Multi-turn Interactive Facial Image Editing via
Dialogue
- Title(参考訳): CHENTIT:対話による多方向対話型顔画像編集を目指して
- Authors: Xing Cui, Zekun Li, Peipei Li, Yibo Hu, Hailin Shi, Zhaofeng He
- Abstract要約: 本稿では、画像編集と会話能力を評価するためのChatEditベンチマークデータセットを提案する。
ChatEditはCelebA-HQデータセットから構築され、画像上のユーザの編集要求に対応する注釈付きマルチターンダイアログが組み込まれている。
本稿では,ユーザ要求のトラッキングと応答生成のための対話モジュールを統合した新しいベースラインフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.503012018823902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores interactive facial image editing via dialogue and
introduces the ChatEdit benchmark dataset for evaluating image editing and
conversation abilities in this context. ChatEdit is constructed from the
CelebA-HQ dataset, incorporating annotated multi-turn dialogues corresponding
to user edit requests on the images. The dataset is challenging, as it requires
the system to dynamically track user requests, edit images, and generate
appropriate responses. Accordingly, we propose three benchmark tasks: (i) user
edit request tracking, (ii) image editing, and (iii) response generation. We
present a novel baseline framework that integrates a dialogue module for both
tracking user requests and generating responses and an image editing module for
image editing. Unlike previous approaches, our framework directly tracks user
edit requests from the entire dialogue history up to the current turn and
modifies the original image rather than adjusting the previous turn's output,
thereby reducing error accumulation and preventing attribute forgetfulness.
Extensive experiments on the ChatEdit dataset underline our framework's
superior performance against prior models, while also highlighting potential
room for further research. We will release the code and data publicly to
facilitate advancements in complex interactive facial image editing.
- Abstract(参考訳): 本稿では,対話による対話型顔画像編集について検討し,このコンテキストにおける画像編集と会話能力を評価するためのchateditベンチマークデータセットを紹介する。
ChatEditはCelebA-HQデータセットから構築され、画像上のユーザの編集要求に対応する注釈付きマルチターンダイアログが組み込まれている。
ユーザの要求を動的に追跡し、画像を編集し、適切なレスポンスを生成する必要があるため、データセットは難しい。
そこで我々は3つのベンチマークタスクを提案する。
(i)ユーザの編集要求追跡
(ii)画像編集、及び
(iii)反応生成。
本稿では,ユーザ要求のトラッキングと応答生成のための対話モジュールと,画像編集のための画像編集モジュールを統合した新しいベースラインフレームワークを提案する。
従来のアプローチとは異なり,我々のフレームワークは,対話履歴全体から現在のターンまで,ユーザの編集要求を直接追跡し,前のターンの出力を調整するのではなく,元のイメージを変更する。
ChatEditデータセットに関する大規模な実験は、フレームワークの先行モデルに対する優れたパフォーマンスと、さらなる研究の余地を強調します。
複雑な対話型顔画像編集の進歩を促進するため、コードとデータを公開します。
関連論文リスト
- EditScribe: Non-Visual Image Editing with Natural Language Verification Loops [12.16675723509151]
EditScribeは、大規模なマルチモーダルモデルを利用した自然言語検証ループを使用して画像編集を可能にするプロトタイプシステムである。
ユーザはまず、最初のジェネリクスとオブジェクト記述を通じて画像内容を理解し、その後、オープンな自然言語プロンプトを使用して編集動作を指定する。
視覚障害者10名を対象にした調査では、EditScribeが画像編集動作を非視覚的に実行し、検証することを支援した。
論文 参考訳(メタデータ) (2024-08-13T04:40:56Z) - BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DialogPaint: A Dialog-based Image Editing Model [21.51417302677082]
DialogPaintは、画像編集との対話をブリッジする新しいフレームワークである。
対話モデルを安定拡散画像変換技術と統合することにより、DialogPaintは画像修正に対してより直感的でインタラクティブなアプローチを提供する。
論文 参考訳(メタデータ) (2023-03-17T15:54:30Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - Talk-to-Edit: Fine-Grained Facial Editing via Dialog [79.8726256912376]
Talk-to-Editは対話型顔編集フレームワークで、ユーザーとシステム間の対話を通じて微粒な属性操作を行う。
我々の重要な洞察は、GANラテント空間における連続的な「セマンティック場」をモデル化することである。
本システムは,ユーザからの要求とセマンティックフィールドの状態の両方を考慮し,言語フィードバックを生成する。
論文 参考訳(メタデータ) (2021-09-09T17:17:59Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。