論文の概要: Teaching Text-to-Image Models to Communicate
- arxiv url: http://arxiv.org/abs/2309.15516v1
- Date: Wed, 27 Sep 2023 09:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 14:34:34.885214
- Title: Teaching Text-to-Image Models to Communicate
- Title(参考訳): テキスト・画像モデルによるコミュニケーションの指導
- Authors: Xiaowen Sun, Jiazhan Feng, Yuxuan Wang, Yuxuan Lai, Xingyu Shen,
Dongyan Zhao
- Abstract要約: 対話コンテキストが与えられた場合、モデルは、応答として指定された会話と一致した現実的なイメージを生成する必要がある。
中間翻訳を伴わない対話画像生成のための効率的な手法を提案する。
我々は、事前に訓練されたテキスト・ツー・イメージ・モデルを微調整し、処理されたダイアログコンテキストに基づいて画像のコンディショニングを生成する。
- 参考スコア(独自算出の注目度): 44.76942024105259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various works have been extensively studied in the research of text-to-image
generation. Although existing models perform well in text-to-image generation,
there are significant challenges when directly employing them to generate
images in dialogs. In this paper, we first highlight a new problem:
dialog-to-image generation, that is, given the dialog context, the model should
generate a realistic image which is consistent with the specified conversation
as response. To tackle the problem, we propose an efficient approach for
dialog-to-image generation without any intermediate translation, which
maximizes the extraction of the semantic information contained in the dialog.
Considering the characteristics of dialog structure, we put segment token
before each sentence in a turn of a dialog to differentiate different speakers.
Then, we fine-tune pre-trained text-to-image models to enable them to generate
images conditioning on processed dialog context. After fine-tuning, our
approach can consistently improve the performance of various models across
multiple metrics. Experimental results on public benchmark demonstrate the
effectiveness and practicability of our method.
- Abstract(参考訳): テキストから画像への生成の研究において、様々な研究がなされている。
既存のモデルはテキスト・画像生成でよく機能するが、ダイアログで画像を生成するために直接使用する場合、大きな課題がある。
本稿ではまず,ダイアログから画像への生成という新たな問題に注目する。ダイアログのコンテキストを考えると,モデルが応答として指定された会話と一致する現実的なイメージを生成する必要がある。
そこで本研究では,対話に含まれる意味情報の抽出を最大化する,中間翻訳のない対話・画像生成の効率的な手法を提案する。
ダイアログ構造の特徴を考慮すると、各文の前にセグメントトークンをダイアログのターンに配置し、異なる話者を区別する。
次に、事前学習したテキストから画像へのモデルを微調整し、処理されたダイアログコンテキストでイメージ条件付けを生成する。
微調整後、我々の手法は複数のメトリクスにわたる様々なモデルの性能を一貫して改善することができる。
ベンチマーク実験の結果,本手法の有効性と実用性が示された。
関連論文リスト
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Stylized Dialogue Response Generation Using Stylized Unpaired Texts [63.69880979112312]
本稿では,文中に埋め込まれた文体の特徴を抽出する文体化対話生成手法を提案する。
提案手法は,与えられたコンテキストに忠実で,対象のスタイルに適合する対話応答を生成できる。
論文 参考訳(メタデータ) (2020-09-27T01:04:06Z) - Controlling Dialogue Generation with Semantic Exemplars [55.460082747572734]
本稿では,経験的応答に現れる意味的フレームを用いて生成をガイドする,経験的対話生成モデルEDGEを提案する。
単語自体の単語ではなく、経験者の意味的フレームに基づく対話生成の制御により、生成した応答の一貫性が向上することを示す。
論文 参考訳(メタデータ) (2020-08-20T17:02:37Z) - Open Domain Dialogue Generation with Latent Images [43.78366219197779]
画像対話とテキスト対話の両方を用いて応答生成モデルを学ぶことを提案する。
第1のシナリオでは、静止画像とのテキスト対話によって、画像地上対話を効果的に拡張することができる。
第2のシナリオでは、潜伏した画像は応答の内容を強化し、同時にそれらがコンテキストと関連性を保つ。
論文 参考訳(メタデータ) (2020-04-04T17:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。