論文の概要: MMChat: Multi-Modal Chat Dataset on Social Media
- arxiv url: http://arxiv.org/abs/2108.07154v1
- Date: Mon, 16 Aug 2021 15:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 17:23:10.361731
- Title: MMChat: Multi-Modal Chat Dataset on Social Media
- Title(参考訳): MMChat:ソーシャルメディア上のマルチモーダルチャットデータセット
- Authors: Yinhe Zheng, Guanyi Chen, Xin Liu, Ke Lin
- Abstract要約: MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話)
架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。
画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
- 参考スコア(独自算出の注目度): 8.904627457711683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating multi-modal contexts in conversation is an important step for
developing more engaging dialogue systems. In this work, we explore this
direction by introducing MMChat: a large scale multi-modal dialogue corpus
(32.4M raw dialogues and 120.84K filtered dialogues). Unlike previous corpora
that are crowd-sourced or collected from fictitious movies, MMChat contains
image-grounded dialogues collected from real conversations on social media, in
which the sparsity issue is observed. Specifically, image-initiated dialogues
in common communications may deviate to some non-image-grounded topics as the
conversation proceeds. We develop a benchmark model to address this issue in
dialogue generation tasks by adapting the attention routing mechanism on image
features. Experiments demonstrate the usefulness of incorporating image
features and the effectiveness in handling the sparsity of image features.
- Abstract(参考訳): 会話にマルチモーダルコンテキストを組み込むことは、より魅力的な対話システムを開発するための重要なステップである。
本稿では,MMChatの大規模多モーダル対話コーパス(32.4M生対話,120.84Kフィルタ対話)を導入することで,この方向を探る。
クラウドソースや架空の映画から収集された以前のコーパスとは異なり、mmchatはソーシャルメディア上の実際の会話から収集された画像ベースの対話を含んでいる。
特に、共通コミュニケーションにおける画像開始対話は、会話が進むにつれて、画像以外の話題に偏る可能性がある。
画像特徴に注意ルーティング機構を適用し,対話生成タスクにおけるこの問題に対処するためのベンチマークモデルを開発した。
実験は、画像特徴を組み込むの有用性と、画像特徴のスパース性に対処するための効果を示す。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Multi-User MultiWOZ: Task-Oriented Dialogues among Multiple Users [51.34484827552774]
マルチユーザMulti-User MultiWOZデータセットを2つのユーザと1つのエージェント間のタスク指向対話としてリリースする。
これらの対話は、タスク指向のシナリオにおける協調的な意思決定の興味深いダイナミクスを反映している。
本稿では,複数ユーザ間のタスク指向のチャットを簡潔なタスク指向のクエリとして書き換える,マルチユーザコンテキストクエリ書き換えの新しいタスクを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:12:07Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset [18.449076451976236]
本稿では,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。
我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメントを推測するよう促す。
このパイプラインを通じて、高品質で多様な多モード対話データセットであるDialogCCを紹介する。
論文 参考訳(メタデータ) (2022-12-08T07:29:07Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。