論文の概要: Open Domain Dialogue Generation with Latent Images
- arxiv url: http://arxiv.org/abs/2004.01981v2
- Date: Tue, 1 Jun 2021 07:43:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 22:35:28.876458
- Title: Open Domain Dialogue Generation with Latent Images
- Title(参考訳): 潜在画像を用いたオープンドメイン対話生成
- Authors: Ze Yang, Wei Wu, Huang Hu, Can Xu, Wei Wang, Zhoujun Li
- Abstract要約: 画像対話とテキスト対話の両方を用いて応答生成モデルを学ぶことを提案する。
第1のシナリオでは、静止画像とのテキスト対話によって、画像地上対話を効果的に拡張することができる。
第2のシナリオでは、潜伏した画像は応答の内容を強化し、同時にそれらがコンテキストと関連性を保つ。
- 参考スコア(独自算出の注目度): 43.78366219197779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider grounding open domain dialogues with images. Existing work
assumes that both an image and a textual context are available, but
image-grounded dialogues by nature are more difficult to obtain than textual
dialogues. Thus, we propose learning a response generation model with both
image-grounded dialogues and textual dialogues by assuming that the visual
scene information at the time of a conversation can be represented by an image,
and trying to recover the latent images of the textual dialogues through
text-to-image generation techniques. The likelihood of the two types of
dialogues is then formulated by a response generator and an image reconstructor
that are learned within a conditional variational auto-encoding framework.
Empirical studies are conducted in both image-grounded conversation and
text-based conversation. In the first scenario, image-grounded dialogues,
especially under a low-resource setting, can be effectively augmented by
textual dialogues with latent images; while in the second scenario, latent
images can enrich the content of responses and at the same time keep them
relevant to contexts.
- Abstract(参考訳): オープンドメインと画像との対話について検討する。
既存の研究は、画像とテキストの文脈の両方が利用可能であると仮定しているが、自然界における画像地上対話は、テキスト対話よりも入手が困難である。
そこで本研究では,対話時の視覚シーン情報を画像で表現可能と仮定し,テキスト対画像生成技術を用いてテキスト対話の潜在画像の復元を試みることにより,画像接地対話とテキスト対話の両方を用いた応答生成モデルを学ぶことを提案する。
2つのタイプの対話の可能性は、条件付き変分オートエンコーディングフレームワークで学習される応答生成器と画像再構成器によって定式化される。
画像地上会話とテキストベースの会話の両方において実証的研究を行う。
第1シナリオでは、特に低リソース環境下でのイメージ接頭辞対話は、潜在画像とのテキスト対話によって効果的に強化されるが、第2シナリオでは、潜在画像は応答の内容を強化し、同時に文脈に関連づけられる。
関連論文リスト
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Teaching Text-to-Image Models to Communicate in Dialog [44.76942024105259]
本稿では,イノベーティブな対話・画像生成タスクに焦点をあてる。
この問題に対処するために、我々は最先端のテキスト・画像生成モデルのトップに調整された微調整アプローチを設計する。
我々のアプローチは、3つの最先端の事前訓練されたテキスト-画像生成バックボーンで一貫した、そして顕著な改善をもたらす。
論文 参考訳(メタデータ) (2023-09-27T09:33:16Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Stylized Dialogue Response Generation Using Stylized Unpaired Texts [63.69880979112312]
本稿では,文中に埋め込まれた文体の特徴を抽出する文体化対話生成手法を提案する。
提案手法は,与えられたコンテキストに忠実で,対象のスタイルに適合する対話応答を生成できる。
論文 参考訳(メタデータ) (2020-09-27T01:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。