論文の概要: IMAD: IMage-Augmented multi-modal Dialogue
- arxiv url: http://arxiv.org/abs/2305.10512v2
- Date: Sat, 16 Dec 2023 10:18:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 20:54:48.232125
- Title: IMAD: IMage-Augmented multi-modal Dialogue
- Title(参考訳): imad:画像提示マルチモーダル対話
- Authors: Viktor Moskvoretskii, Anton Frolov, Denis Kuznetsov
- Abstract要約: 本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
- 参考スコア(独自算出の注目度): 0.043847653914745384
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Currently, dialogue systems have achieved high performance in processing
text-based communication. However, they have not yet effectively incorporated
visual information, which poses a significant challenge. Furthermore, existing
models that incorporate images in dialogue generation focus on discussing the
image itself. Our proposed approach presents a novel perspective on multi-modal
dialogue systems, which interprets the image in the context of the dialogue. By
doing so, we aim to expand the capabilities of current dialogue systems and
transition them from single modality (text) to multi-modality. However, there
is a lack of validated English datasets that contain both images and dialogue
contexts for this task. Thus, we propose a two-stage approach to automatically
construct a multi-modal dialogue dataset. In the first stage, we utilize
text-to-image similarity and sentence similarity to identify which utterances
could be replaced with an image. In the second stage, we replace those
utterances by selecting a subset of relevant images and filtering them with a
visual question answering model. We used this approach, along with additional
labeling, to create the IMage Augmented multi-modal Dialogue dataset (IMAD),
which can serve as a validated dataset for this task. Furthermore, we propose a
baseline model trained on this dataset, which outperforms model trained on the
same data without images and BlenderBot.
- Abstract(参考訳): 現在,対話システムはテキストベースの通信処理において高い性能を達成している。
しかし、視覚情報を効果的に組み込んでいないため、大きな課題となっている。
さらに,対話生成にイメージを取り入れた既存のモデルは,画像自体の議論に重点を置いている。
提案手法は,対話の文脈でイメージを解釈するマルチモーダル対話システムにおいて,新たな視点を示す。
これにより、現在の対話システムの能力を拡張し、単一のモダリティ(テキスト)からマルチモダリティへ移行することを目指している。
しかし、このタスクには画像と対話コンテキストの両方を含む検証された英語データセットが欠如している。
そこで本研究では,マルチモーダル対話データセットを自動構築する2段階アプローチを提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
我々は、このアプローチと追加のラベル付けを使用して、画像拡張マルチモーダル対話データセット(imad: image augmented multi-modal dialogue dataset)を作成しました。
さらに,このデータセットに基づいてトレーニングされたベースラインモデルを提案する。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - DialogCC: Large-Scale Multi-Modal Dialogue Dataset [9.558392439655014]
大規模画像とCLIPの類似性に基づく対話をマッチングする多モード対話データセット作成パイプラインを提案する。
大規模な実験により、データセットを用いたマルチモーダル対話モデルのトレーニングにより、一般化性能が向上することを示した。
論文 参考訳(メタデータ) (2022-12-08T07:29:07Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Constructing Multi-Modal Dialogue Dataset by Replacing Text with
Semantically Relevant Images [17.076424447172297]
本稿では,人間の介入を最小限に抑えた45kマルチモーダル対話データセットを提案する。
このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈相似性に基づくフィルタリング手法を用いて構成する。
論文 参考訳(メタデータ) (2021-07-19T08:44:11Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。