論文の概要: DialogCC: Large-Scale Multi-Modal Dialogue Dataset
- arxiv url: http://arxiv.org/abs/2212.04119v1
- Date: Thu, 8 Dec 2022 07:29:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 14:39:16.937400
- Title: DialogCC: Large-Scale Multi-Modal Dialogue Dataset
- Title(参考訳): dialogcc: 大規模マルチモーダル対話データセット
- Authors: Young-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Ho-Jin Choi
- Abstract要約: 大規模画像とCLIPの類似性に基づく対話をマッチングする多モード対話データセット作成パイプラインを提案する。
大規模な実験により、データセットを用いたマルチモーダル対話モデルのトレーニングにより、一般化性能が向上することを示した。
- 参考スコア(独自算出の注目度): 9.558392439655014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As sharing images in an instant message is a crucial factor, there has been
active research on learning a image-text multi-modal dialogue model. However,
training a well-generalized multi-modal dialogue model is challenging because
existing multi-modal dialogue datasets contain a small number of data, limited
topics, and a restricted variety of images per dialogue. In this paper, we
present a multi-modal dialogue dataset creation pipeline that involves matching
large-scale images to dialogues based on CLIP similarity. Using this automatic
pipeline, we propose a large-scale multi-modal dialogue dataset, DialogCC,
which covers diverse real-world topics and various images per dialogue. With
extensive experiments, we demonstrate that training a multi-modal dialogue
model with our dataset can improve generalization performance. Additionally,
existing models trained with our dataset achieve state-of-the-art performance
on image and text retrieval tasks. The source code and the dataset will be
released after publication.
- Abstract(参考訳): インスタントメッセージで画像を共有することが重要な要素であるため、画像テキストによるマルチモーダル対話モデルの学習が活発に行われている。
しかしながら、既存のマルチモーダル対話データセットには、少数のデータ、限られたトピック、対話ごとの画像の制限があるため、十分に一般化されたマルチモーダル対話モデルの訓練は困難である。
本稿では,CLIPの類似性に基づく大規模画像と対話をマッチングする多モード対話データセット作成パイプラインを提案する。
この自動パイプラインを用いて,多種多様な実世界の話題と対話毎の画像をカバーする大規模マルチモーダル対話データセットdialogccを提案する。
広範な実験により,データセットを用いたマルチモーダル対話モデルのトレーニングにより,一般化性能が向上することを示す。
さらに、データセットでトレーニングされた既存のモデルは、画像およびテキスト検索タスクにおける最先端のパフォーマンスを達成する。
ソースコードとデータセットは公開後にリリースされる。
関連論文リスト
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets [29.737965533532577]
Multimodal Augmented Generative Images Dialogues (MAGID) はテキストのみの対話を多種多様な高品質の画像で拡張するためのフレームワークである。
その結果,MAGIDはベースラインと同等かそれ以上であり,人体評価の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Constructing Multi-Modal Dialogue Dataset by Replacing Text with
Semantically Relevant Images [17.076424447172297]
本稿では,人間の介入を最小限に抑えた45kマルチモーダル対話データセットを提案する。
このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈相似性に基づくフィルタリング手法を用いて構成する。
論文 参考訳(メタデータ) (2021-07-19T08:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。