論文の概要: DialogPaint: A Dialog-based Image Editing Model
- arxiv url: http://arxiv.org/abs/2303.10073v2
- Date: Wed, 18 Oct 2023 02:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:53:25.508191
- Title: DialogPaint: A Dialog-based Image Editing Model
- Title(参考訳): dialogpaint:ダイアログベースの画像編集モデル
- Authors: Jingxuan Wei, Shiyu Wu, Xin Jiang, Yequan Wang
- Abstract要約: DialogPaintは、画像編集との対話をブリッジする新しいフレームワークである。
対話モデルを安定拡散画像変換技術と統合することにより、DialogPaintは画像修正に対してより直感的でインタラクティブなアプローチを提供する。
- 参考スコア(独自算出の注目度): 21.51417302677082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce DialogPaint, a novel framework that bridges conversational
interactions with image editing, enabling users to modify images through
natural dialogue. By integrating a dialogue model with the Stable Diffusion
image transformation technique, DialogPaint offers a more intuitive and
interactive approach to image modifications. Our method stands out by
effectively interpreting and executing both explicit and ambiguous
instructions, handling tasks such as object replacement, style transfer, and
color modification. Notably, DialogPaint supports iterative, multi-round
editing, allowing users to refine image edits over successive interactions.
Comprehensive evaluations highlight the robustness and versatility of our
approach, marking a significant advancement in dialogue-driven image editing.
- Abstract(参考訳): 画像編集と対話をブリッジする新しいフレームワークであるDialogPaintを導入し、ユーザが自然な対話を通じて画像を修正できるようにする。
対話モデルと安定した拡散画像変換技術を統合することで、dialogpaintはより直感的でインタラクティブな画像修正アプローチを提供する。
提案手法は,明示的命令と曖昧な命令の両方を効果的に解釈し,実行し,オブジェクト置換やスタイル転送,色変化などの処理を行う。
注目すべきなのは、DialogPaintは反復的な複数ラウンド編集をサポートしており、ユーザーは連続するインタラクションを通して画像編集を洗練できる。
総合評価では,提案手法のロバスト性と汎用性が強調され,対話型画像編集における重要な進歩を示す。
関連論文リスト
- Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Teaching Text-to-Image Models to Communicate in Dialog [44.76942024105259]
本稿では,イノベーティブな対話・画像生成タスクに焦点をあてる。
この問題に対処するために、我々は最先端のテキスト・画像生成モデルのトップに調整された微調整アプローチを設計する。
我々のアプローチは、3つの最先端の事前訓練されたテキスト-画像生成バックボーンで一貫した、そして顕著な改善をもたらす。
論文 参考訳(メタデータ) (2023-09-27T09:33:16Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - Dialog act guided contextual adapter for personalized speech recognition [9.672512327395435]
マルチターンダイアログにおけるパーソナライゼーションは、エンドツーエンドの自動音声認識(E2E ASR)モデルにとって長年の課題であった。
近年,ユーザカタログを用いた稀な単語認識に取り組みつつある。
本稿では,対話行動ガイド付きコンテキストアダプタネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T05:13:44Z) - CHATEDIT: Towards Multi-turn Interactive Facial Image Editing via
Dialogue [17.503012018823902]
本稿では、画像編集と会話能力を評価するためのChatEditベンチマークデータセットを提案する。
ChatEditはCelebA-HQデータセットから構築され、画像上のユーザの編集要求に対応する注釈付きマルチターンダイアログが組み込まれている。
本稿では,ユーザ要求のトラッキングと応答生成のための対話モジュールを統合した新しいベースラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T13:45:58Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Conversation Learner -- A Machine Teaching Tool for Building Dialog
Managers for Task-Oriented Dialog Systems [57.082447660944965]
Conversation Learnerは、ダイアログマネージャを構築するための機械学習ツールである。
ダイアログ作成者が慣れ親しんだツールを使ってダイアログフローを作成し、ダイアログフローをパラメトリックモデルに変換することができる。
ユーザシステムダイアログをトレーニングデータとして活用することで、ダイアログ作成者が時間とともにダイアログマネージャを改善することができる。
論文 参考訳(メタデータ) (2020-04-09T00:10:54Z) - Open Domain Dialogue Generation with Latent Images [43.78366219197779]
画像対話とテキスト対話の両方を用いて応答生成モデルを学ぶことを提案する。
第1のシナリオでは、静止画像とのテキスト対話によって、画像地上対話を効果的に拡張することができる。
第2のシナリオでは、潜伏した画像は応答の内容を強化し、同時にそれらがコンテキストと関連性を保つ。
論文 参考訳(メタデータ) (2020-04-04T17:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。