論文の概要: DialogPaint: A Dialog-based Image Editing Model
- arxiv url: http://arxiv.org/abs/2303.10073v1
- Date: Fri, 17 Mar 2023 15:54:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 13:57:09.781079
- Title: DialogPaint: A Dialog-based Image Editing Model
- Title(参考訳): dialogpaint:ダイアログベースの画像編集モデル
- Authors: Jingxuan Wei, Shiyu Wu, Xin Jiang, Yequan Wang
- Abstract要約: DialogPaintは、画像編集にインタラクティブな対話的アプローチを採用する革新的なフレームワークである。
このフレームワークは、事前訓練された対話モデル(ブレンダーボット)と拡散モデル(安定拡散)からなる。
- 参考スコア(独自算出の注目度): 12.173644471402083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present DialogPaint, an innovative framework that employs an interactive
conversational approach for image editing. The framework comprises a pretrained
dialogue model (Blenderbot) and a diffusion model (Stable Diffusion). The
dialogue model engages in conversation with users to understand their
requirements and generates concise instructions based on the dialogue.
Subsequently, the Stable Diffusion model employs these instructions, along with
the input image, to produce the desired output. Due to the difficulty of
acquiring fine-tuning data for such models, we leverage multiple large-scale
models to generate simulated dialogues and corresponding image pairs. After
fine-tuning our framework with the synthesized data, we evaluate its
performance in real application scenes. The results demonstrate that
DialogPaint excels in both objective and subjective evaluation metrics
effectively handling ambiguous instructions and performing tasks such as object
replacement, style transfer, color modification. Moreover, our framework
supports multi-round editing, allowing for the completion of complicated
editing tasks.
- Abstract(参考訳): 画像編集に対話型対話型アプローチを用いた革新的なフレームワークであるdialogpaintを提案する。
フレームワークは、事前訓練された対話モデル(Blenderbot)と拡散モデル(Stable Diffusion)とを含む。
対話モデルは,ユーザの要求を理解するために対話を行い,対話に基づいて簡潔な指示を生成する。
その後、安定拡散モデルは、入力画像とともにこれらの命令を用いて所望の出力を生成する。
このようなモデルのための微調整データの取得が難しいため、複数の大規模モデルを用いてシミュレーション対話と対応する画像ペアを生成する。
合成データでフレームワークを微調整した後、実際のアプリケーションシーンでの性能を評価する。
その結果,DialogPaintは客観的および主観的評価指標の両面で優れており,あいまいな指示を効果的に処理し,オブジェクト置換,スタイル移動,色変化などのタスクを実行することができることがわかった。
さらに,複雑な編集作業の完了を可能にするマルチラウンド編集もサポートしている。
関連論文リスト
- Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Teaching Text-to-Image Models to Communicate in Dialog [44.76942024105259]
本稿では,イノベーティブな対話・画像生成タスクに焦点をあてる。
この問題に対処するために、我々は最先端のテキスト・画像生成モデルのトップに調整された微調整アプローチを設計する。
我々のアプローチは、3つの最先端の事前訓練されたテキスト-画像生成バックボーンで一貫した、そして顕著な改善をもたらす。
論文 参考訳(メタデータ) (2023-09-27T09:33:16Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - Dialog act guided contextual adapter for personalized speech recognition [9.672512327395435]
マルチターンダイアログにおけるパーソナライゼーションは、エンドツーエンドの自動音声認識(E2E ASR)モデルにとって長年の課題であった。
近年,ユーザカタログを用いた稀な単語認識に取り組みつつある。
本稿では,対話行動ガイド付きコンテキストアダプタネットワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T05:13:44Z) - CHATEDIT: Towards Multi-turn Interactive Facial Image Editing via
Dialogue [17.503012018823902]
本稿では、画像編集と会話能力を評価するためのChatEditベンチマークデータセットを提案する。
ChatEditはCelebA-HQデータセットから構築され、画像上のユーザの編集要求に対応する注釈付きマルチターンダイアログが組み込まれている。
本稿では,ユーザ要求のトラッキングと応答生成のための対話モジュールを統合した新しいベースラインフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-20T13:45:58Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Conversation Learner -- A Machine Teaching Tool for Building Dialog
Managers for Task-Oriented Dialog Systems [57.082447660944965]
Conversation Learnerは、ダイアログマネージャを構築するための機械学習ツールである。
ダイアログ作成者が慣れ親しんだツールを使ってダイアログフローを作成し、ダイアログフローをパラメトリックモデルに変換することができる。
ユーザシステムダイアログをトレーニングデータとして活用することで、ダイアログ作成者が時間とともにダイアログマネージャを改善することができる。
論文 参考訳(メタデータ) (2020-04-09T00:10:54Z) - Open Domain Dialogue Generation with Latent Images [43.78366219197779]
画像対話とテキスト対話の両方を用いて応答生成モデルを学ぶことを提案する。
第1のシナリオでは、静止画像とのテキスト対話によって、画像地上対話を効果的に拡張することができる。
第2のシナリオでは、潜伏した画像は応答の内容を強化し、同時にそれらがコンテキストと関連性を保つ。
論文 参考訳(メタデータ) (2020-04-04T17:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。