論文の概要: DialogCC: Large-Scale Multi-Modal Dialogue Dataset
- arxiv url: http://arxiv.org/abs/2212.04119v1
- Date: Thu, 8 Dec 2022 07:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:39:16.937400
- Title: DialogCC: Large-Scale Multi-Modal Dialogue Dataset
- Title(参考訳): dialogcc: 大規模マルチモーダル対話データセット
- Authors: Young-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Ho-Jin Choi
- Abstract要約: 大規模画像とCLIPの類似性に基づく対話をマッチングする多モード対話データセット作成パイプラインを提案する。
大規模な実験により、データセットを用いたマルチモーダル対話モデルのトレーニングにより、一般化性能が向上することを示した。
- 参考スコア(独自算出の注目度): 9.558392439655014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As sharing images in an instant message is a crucial factor, there has been
active research on learning a image-text multi-modal dialogue model. However,
training a well-generalized multi-modal dialogue model is challenging because
existing multi-modal dialogue datasets contain a small number of data, limited
topics, and a restricted variety of images per dialogue. In this paper, we
present a multi-modal dialogue dataset creation pipeline that involves matching
large-scale images to dialogues based on CLIP similarity. Using this automatic
pipeline, we propose a large-scale multi-modal dialogue dataset, DialogCC,
which covers diverse real-world topics and various images per dialogue. With
extensive experiments, we demonstrate that training a multi-modal dialogue
model with our dataset can improve generalization performance. Additionally,
existing models trained with our dataset achieve state-of-the-art performance
on image and text retrieval tasks. The source code and the dataset will be
released after publication.
- Abstract(参考訳): インスタントメッセージで画像を共有することが重要な要素であるため、画像テキストによるマルチモーダル対話モデルの学習が活発に行われている。
しかしながら、既存のマルチモーダル対話データセットには、少数のデータ、限られたトピック、対話ごとの画像の制限があるため、十分に一般化されたマルチモーダル対話モデルの訓練は困難である。
本稿では,CLIPの類似性に基づく大規模画像と対話をマッチングする多モード対話データセット作成パイプラインを提案する。
この自動パイプラインを用いて,多種多様な実世界の話題と対話毎の画像をカバーする大規模マルチモーダル対話データセットdialogccを提案する。
広範な実験により,データセットを用いたマルチモーダル対話モデルのトレーニングにより,一般化性能が向上することを示す。
さらに、データセットでトレーニングされた既存のモデルは、画像およびテキスト検索タスクにおける最先端のパフォーマンスを達成する。
ソースコードとデータセットは公開後にリリースされる。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Constructing Multi-Modal Dialogue Dataset by Replacing Text with
Semantically Relevant Images [17.076424447172297]
本稿では,人間の介入を最小限に抑えた45kマルチモーダル対話データセットを提案する。
このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈相似性に基づくフィルタリング手法を用いて構成する。
論文 参考訳(メタデータ) (2021-07-19T08:44:11Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Paraphrase Augmented Task-Oriented Dialog Generation [68.1790912977053]
本稿では,パラフレーズモデルと応答生成モデルを協調訓練するパラフレーズ拡張応答生成(PARG)フレームワークを提案する。
また、ダイアログ状態とダイアログアクトラベルに基づいて、パラフレーズトレーニングデータセットを自動構築する手法も設計する。
論文 参考訳(メタデータ) (2020-04-16T05:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。