論文の概要: Teaching Text-to-Image Models to Communicate in Dialog
- arxiv url: http://arxiv.org/abs/2309.15516v2
- Date: Thu, 8 Feb 2024 04:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 19:12:36.529912
- Title: Teaching Text-to-Image Models to Communicate in Dialog
- Title(参考訳): 対話型コミュニケーションのためのテキスト・画像モデル
- Authors: Xiaowen Sun, Jiazhan Feng, Yuxuan Wang, Yuxuan Lai, Xingyu Shen,
Dongyan Zhao
- Abstract要約: 本稿では,イノベーティブな対話・画像生成タスクに焦点をあてる。
この問題に対処するために、我々は最先端のテキスト・画像生成モデルのトップに調整された微調整アプローチを設計する。
我々のアプローチは、3つの最先端の事前訓練されたテキスト-画像生成バックボーンで一貫した、そして顕著な改善をもたらす。
- 参考スコア(独自算出の注目度): 44.76942024105259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A picture is worth a thousand words, thus, it is crucial for conversational
agents to understand, perceive, and effectively respond with pictures. However,
we find that directly employing conventional image generation techniques is
inadequate for conversational agents to produce image responses effectively. In
this paper, we focus on the innovative dialog-to-image generation task, where
the model synthesizes a high-resolution image aligned with the given dialog
context as a response. To tackle this problem, we design a tailored fine-tuning
approach on the top of state-of-the-art text-to-image generation models to
fully exploit the structural and semantic features in dialog context during
image generation. Concretely, we linearize the dialog context with specific
indicators to maintain the dialog structure, and employ in-domain data to
alleviate the style mismatch between dialog-to-image and conventional image
generation tasks. Empirical results on PhotoChat and MMDialog Corpus show that
our approach brings consistent and remarkable improvement with 3
state-of-the-art pre-trained text-to-image generation backbones.
- Abstract(参考訳): 写真は数千語の価値があり、会話エージェントが写真を理解し、知覚し、効果的に反応することが不可欠である。
しかし,従来の画像生成技術を直接活用することは,対話エージェントが画像応答を効果的に生成するには不十分であることがわかった。
本稿では,与えられたダイアログコンテキストに沿った高解像度画像を応答として合成する,革新的なダイアログ対画像生成タスクに焦点を当てる。
この問題に対処するため,我々は,画像生成中の対話コンテキストの構造的・意味的特徴を十分に活用するために,最先端のテキスト対画像生成モデルの上に最適化された微調整手法を設計する。
具体的には、ダイアログコンテキストと特定の指標を線形化してダイアログ構造を維持し、ドメイン内データを用いてダイアログからイメージへのスタイルミスマッチを緩和する。
PhotoChat と MMDialog Corpus の実証実験の結果,我々のアプローチは3つの最先端のトレーニング済みテキスト・ツー・イメージ生成バックボーンで一貫した顕著な改善をもたらすことが示された。
関連論文リスト
- Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - DialogPaint: A Dialog-based Image Editing Model [21.51417302677082]
DialogPaintは、画像編集との対話をブリッジする新しいフレームワークである。
対話モデルを安定拡散画像変換技術と統合することにより、DialogPaintは画像修正に対してより直感的でインタラクティブなアプローチを提供する。
論文 参考訳(メタデータ) (2023-03-17T15:54:30Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Stylized Dialogue Response Generation Using Stylized Unpaired Texts [63.69880979112312]
本稿では,文中に埋め込まれた文体の特徴を抽出する文体化対話生成手法を提案する。
提案手法は,与えられたコンテキストに忠実で,対象のスタイルに適合する対話応答を生成できる。
論文 参考訳(メタデータ) (2020-09-27T01:04:06Z) - Controlling Dialogue Generation with Semantic Exemplars [55.460082747572734]
本稿では,経験的応答に現れる意味的フレームを用いて生成をガイドする,経験的対話生成モデルEDGEを提案する。
単語自体の単語ではなく、経験者の意味的フレームに基づく対話生成の制御により、生成した応答の一貫性が向上することを示す。
論文 参考訳(メタデータ) (2020-08-20T17:02:37Z) - Open Domain Dialogue Generation with Latent Images [43.78366219197779]
画像対話とテキスト対話の両方を用いて応答生成モデルを学ぶことを提案する。
第1のシナリオでは、静止画像とのテキスト対話によって、画像地上対話を効果的に拡張することができる。
第2のシナリオでは、潜伏した画像は応答の内容を強化し、同時にそれらがコンテキストと関連性を保つ。
論文 参考訳(メタデータ) (2020-04-04T17:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。