論文の概要: DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset
- arxiv url: http://arxiv.org/abs/2212.04119v2
- Date: Fri, 29 Mar 2024 15:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 21:15:55.079673
- Title: DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset
- Title(参考訳): DialogCC: 高品質な多モード対話データセット作成のためのパイプライン自動化
- Authors: Young-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Jonghwan Hyeon, Ho-Jin Choi,
- Abstract要約: 本稿では,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。
我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメントを推測するよう促す。
このパイプラインを通じて、高品質で多様な多モード対話データセットであるDialogCCを紹介する。
- 参考スコア(独自算出の注目度): 18.449076451976236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As sharing images in an instant message is a crucial factor, there has been active research on learning an image-text multi-modal dialogue models. However, training a well-generalized multi-modal dialogue model remains challenging due to the low quality and limited diversity of images per dialogue in existing multi-modal dialogue datasets. In this paper, we propose an automated pipeline to construct a multi-modal dialogue dataset, ensuring both dialogue quality and image diversity without requiring minimum human effort. In our pipeline, to guarantee the coherence between images and dialogue, we prompt GPT-4 to infer potential image-sharing moments - specifically, the utterance, speaker, rationale, and image description. Furthermore, we leverage CLIP similarity to maintain consistency between aligned multiple images to the utterance. Through this pipeline, we introduce DialogCC, a high-quality and diverse multi-modal dialogue dataset that surpasses existing datasets in terms of quality and diversity in human evaluation. Our comprehensive experiments highlight that when multi-modal dialogue models are trained using our dataset, their generalization performance on unseen dialogue datasets is significantly enhanced. We make our source code and dataset publicly available.
- Abstract(参考訳): インスタントメッセージで画像を共有することが重要な要素であるため、画像テキストのマルチモーダル対話モデルを学ぶための研究が活発に行われている。
しかし、既存のマルチモーダル対話データセットでは、対話ごとの画質が低く、多様性が制限されているため、十分に一般化されたマルチモーダル対話モデルのトレーニングは依然として困難である。
本稿では,対話の質と画像の多様性を最小限の労力を要さずに確保し,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。
我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメント(特に発話、話者、合理性、画像記述)を推測するよう促します。
さらに、CLIPの類似性を利用して、複数の画像と発話の整合性を維持する。
このパイプラインを通じて、人間の評価における品質と多様性の観点から、既存のデータセットを超える高品質で多様なマルチモーダル対話データセットであるDialogCCを紹介します。
総合的な実験では、マルチモーダル対話モデルがデータセットを用いて訓練されると、未知の対話データセット上での一般化性能が大幅に向上することを示した。
ソースコードとデータセットを公開しています。
関連論文リスト
- BI-MDRG: Bridging Image History in Multimodal Dialogue Response Generation [21.052101309555464]
MDRG(Multimodal Dialogue Response Generation)は、テキスト、画像、あるいは両方で応答を生成する必要があるタスクである。
これまでの作業は、エンドツーエンドアプローチを採用するのではなく、モデルのイメージ入力と出力の両方の中間ステップとして、テキストのモダリティに依存していた。
本稿では、画像コンテンツに対するテキスト応答の関連性を高めるために、画像履歴情報を活用できるように、応答生成経路をブリッジするBI-MDRGを提案する。
論文 参考訳(メタデータ) (2024-08-12T05:22:42Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets [29.737965533532577]
Multimodal Augmented Generative Images Dialogues (MAGID) はテキストのみの対話を多種多様な高品質の画像で拡張するためのフレームワークである。
その結果,MAGIDはベースラインと同等かそれ以上であり,人体評価の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-03-05T18:31:28Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - DialogStudio: Towards Richest and Most Diverse Unified Dataset
Collection for Conversational AI [92.29874802394167]
DialogStudioは対話データセットの最大かつ最も多様なコレクションである。
本コレクションは,オープンドメイン対話,タスク指向対話,自然言語理解,対話レコメンデーション,対話要約,知識基底対話などのデータを含む。
論文 参考訳(メタデータ) (2023-07-19T17:57:53Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Constructing Multi-Modal Dialogue Dataset by Replacing Text with
Semantically Relevant Images [17.076424447172297]
本稿では,人間の介入を最小限に抑えた45kマルチモーダル対話データセットを提案する。
このようなデータセットを作成する方法は,(1)テキスト対話データセットの作成と前処理,(2)テキストから画像への置き換え技術による画像混合対話の作成,(3)文脈相似性に基づくフィルタリング手法を用いて構成する。
論文 参考訳(メタデータ) (2021-07-19T08:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。