論文の概要: MMChat: Multi-Modal Chat Dataset on Social Media
- arxiv url: http://arxiv.org/abs/2108.07154v1
- Date: Mon, 16 Aug 2021 15:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 17:23:10.361731
- Title: MMChat: Multi-Modal Chat Dataset on Social Media
- Title(参考訳): MMChat:ソーシャルメディア上のマルチモーダルチャットデータセット
- Authors: Yinhe Zheng, Guanyi Chen, Xin Liu, Ke Lin
- Abstract要約: MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話)
架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。
画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
- 参考スコア(独自算出の注目度): 8.904627457711683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Incorporating multi-modal contexts in conversation is an important step for
developing more engaging dialogue systems. In this work, we explore this
direction by introducing MMChat: a large scale multi-modal dialogue corpus
(32.4M raw dialogues and 120.84K filtered dialogues). Unlike previous corpora
that are crowd-sourced or collected from fictitious movies, MMChat contains
image-grounded dialogues collected from real conversations on social media, in
which the sparsity issue is observed. Specifically, image-initiated dialogues
in common communications may deviate to some non-image-grounded topics as the
conversation proceeds. We develop a benchmark model to address this issue in
dialogue generation tasks by adapting the attention routing mechanism on image
features. Experiments demonstrate the usefulness of incorporating image
features and the effectiveness in handling the sparsity of image features.
- Abstract(参考訳): 会話にマルチモーダルコンテキストを組み込むことは、より魅力的な対話システムを開発するための重要なステップである。
本稿では,MMChatの大規模多モーダル対話コーパス(32.4M生対話,120.84Kフィルタ対話)を導入することで,この方向を探る。
クラウドソースや架空の映画から収集された以前のコーパスとは異なり、mmchatはソーシャルメディア上の実際の会話から収集された画像ベースの対話を含んでいる。
特に、共通コミュニケーションにおける画像開始対話は、会話が進むにつれて、画像以外の話題に偏る可能性がある。
画像特徴に注意ルーティング機構を適用し,対話生成タスクにおけるこの問題に対処するためのベンチマークモデルを開発した。
実験は、画像特徴を組み込むの有用性と、画像特徴のスパース性に対処するための効果を示す。
関連論文リスト
- Instruct Once, Chat Consistently in Multiple Rounds: An Efficient Tuning
Framework for Dialogue [14.595548353288525]
マルチラウンド対話チューニング(Midi-Tuning)フレームワークを提案する。
エージェントとユーザを、大きな言語モデル上に構築された2つのアダプタで個別にモデル化する。
論文 参考訳(メタデータ) (2024-02-10T14:52:52Z) - Multi-User MultiWOZ: Task-Oriented Dialogues among Multiple Users [51.34484827552774]
マルチユーザMulti-User MultiWOZデータセットを2つのユーザと1つのエージェント間のタスク指向対話としてリリースする。
これらの対話は、タスク指向のシナリオにおける協調的な意思決定の興味深いダイナミクスを反映している。
本稿では,複数ユーザ間のタスク指向のチャットを簡潔なタスク指向のクエリとして書き換える,マルチユーザコンテキストクエリ書き換えの新しいタスクを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:12:07Z) - Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - MPCHAT: Towards Multimodal Persona-Grounded Conversation [54.800425322314105]
我々はペルソナに基づく対話をマルチモーダル領域に拡張し、2つの主要な貢献をする。
まず,MPCHATという対話データセットを提案する。
第2に,マルチモーダル・ペルソナを組み込んだ多モーダル・ペルソナの対話タスクが,統計的に有意な性能向上をもたらすことを実証的に示す。
論文 参考訳(メタデータ) (2023-05-27T06:46:42Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - DialogCC: Large-Scale Multi-Modal Dialogue Dataset [9.558392439655014]
大規模画像とCLIPの類似性に基づく対話をマッチングする多モード対話データセット作成パイプラインを提案する。
大規模な実験により、データセットを用いたマルチモーダル対話モデルのトレーニングにより、一般化性能が向上することを示した。
論文 参考訳(メタデータ) (2022-12-08T07:29:07Z) - Multimodal Dialogue Response Generation [27.611204319057393]
本稿では,対話履歴を入力とし,テキストシーケンスや画像を応答として生成するマルチモーダル対話生成モデルを提案する。
我々は、限られた訓練例しか利用できないという自然な仮定の下で、マルチモーダルな対話生成を考える。
このような低リソース環境では、モデル全体の多モーダル対話に依存するパラメータを分離するために、新しい対話エージェントであるDivterを考案する。
論文 参考訳(メタデータ) (2021-10-16T08:52:26Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。