論文の概要: Towards Expressive Communication with Internet Memes: A New Multimodal
Conversation Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2109.01839v1
- Date: Sat, 4 Sep 2021 10:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:58:39.699420
- Title: Towards Expressive Communication with Internet Memes: A New Multimodal
Conversation Dataset and Benchmark
- Title(参考訳): インターネットミームによる表現型コミュニケーションに向けて:新しいマルチモーダル対話データセットとベンチマーク
- Authors: Zhengcong Fei, Zekang Li, Jinchao Zhang, Yang Feng, Jie Zhou
- Abstract要約: 我々はtextbfMeme を組み込んだ textbfOpen- domain textbfDialogue (MOD) という新しいタスクを提案する。
MODは、モデルがマルチモーダル要素とそれらの背後にある感情を理解する必要があるため、はるかに難しいです。
大量のインターネットミームを発話に組み込んだ大規模オープンドメインマルチモーダル対話データセットを構築した。
- 参考スコア(独自算出の注目度): 28.255324166852535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a kind of new expression elements, Internet memes are popular and
extensively used in online chatting scenarios since they manage to make
dialogues vivid, moving, and interesting. However, most current dialogue
researches focus on text-only dialogue tasks. In this paper, we propose a new
task named as \textbf{M}eme incorporated \textbf{O}pen-domain \textbf{D}ialogue
(MOD). Compared to previous dialogue tasks, MOD is much more challenging since
it requires the model to understand the multimodal elements as well as the
emotions behind them. To facilitate the MOD research, we construct a
large-scale open-domain multimodal dialogue dataset incorporating abundant
Internet memes into utterances. The dataset consists of $\sim$45K Chinese
conversations with $\sim$606K utterances. Each conversation contains about $13$
utterances with about $4$ Internet memes on average and each utterance equipped
with an Internet meme is annotated with the corresponding emotion. In addition,
we present a simple and effective method, which utilizes a unified generation
network to solve the MOD task. Experimental results demonstrate that our method
trained on the proposed corpus is able to achieve expressive communication
including texts and memes. The corpus and models have been publicly available
at https://github.com/lizekang/DSTC10-MOD.
- Abstract(参考訳): ある種の新しい表現要素として、インターネットミームは、対話を鮮やかに、移動し、興味深いものにするため、オンラインチャットシナリオで広く使われている。
しかし、現在の対話研究のほとんどは、テキストのみの対話タスクに焦点を当てている。
本稿では,新しいタスクである \textbf{m}eme incorporated \textbf{o}pen-domain \textbf{d}ialogue (mod)を提案する。
従来の対話タスクと比較して、MODはモデルがマルチモーダル要素とそれらの背後にある感情を理解する必要があるため、はるかに難しい。
このMOD研究を促進するために,大量のインターネットミームを組み込んだ大規模オープンドメイン多モーダル対話データセットを構築した。
データセットは、$\sim$45Kの中国語会話と$\sim$606Kの発話からなる。
各会話には平均4ドルのインターネットミームを含む約13ドルの発話が含まれており、インターネットミームを備えた発話には対応する感情が注釈付けされる。
さらに,MOD課題を解決するために,統合生成ネットワークを利用する,シンプルで効果的な手法を提案する。
実験の結果,提案手法はテキストやミームを含む表現力のあるコミュニケーションを実現することができることがわかった。
コーパスとモデルはhttps://github.com/lizekang/DSTC10-MODで公開されている。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - PromptMTopic: Unsupervised Multimodal Topic Modeling of Memes using
Large Language Models [7.388466146105024]
テキストと視覚の両方からトピックを学習する新しいマルチモーダルプロンプトベースモデルであるtextPromptMTopicを提案する。
本モデルは,テキストと視覚的モダリティ間の意味的相互作用を考慮して,ミームから学習したトピックを効果的に抽出し,クラスタ化する。
我々の研究は、今日の社会における重要なコミュニケーション形態であるミームの話題とテーマの理解に寄与する。
論文 参考訳(メタデータ) (2023-12-11T03:36:50Z) - Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models [60.81438804824749]
マルチモーダル命令追従モデルは、テキストと画像を統合することで機能を拡張する。
MiniGPT-4やLLaVAのような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で課題に直面している。
本稿では,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介する。
次に、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを紹介する。
論文 参考訳(メタデータ) (2023-08-31T05:15:27Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos [75.37313546008639]
本稿では,視覚的文脈を考慮した会話生成モデルCHAMPAGNEを紹介する。
CHAMPAGNEを訓練するために,大規模な18Mビデオ対話コーパスであるChAMPAGNEを収集・リリースする。
論文 参考訳(メタデータ) (2023-03-17T01:10:33Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Towards Building an Open-Domain Dialogue System Incorporated with
Internet Memes [19.57042922215698]
本稿では,MDC10 のオープンドメイン対話 (MOD) チャレンジに対するソリューションを提案する。
我々は,協調的かつ情報的応答生成のための大規模事前学習対話モデルを利用する。
インタラクションベースのテキストマッチングに基づいて,適切なミームを適切な一般化能力で検索できる。
論文 参考訳(メタデータ) (2022-03-08T03:54:02Z) - Fusing task-oriented and open-domain dialogues in conversational agents [12.338220374261343]
2つの対話モードは、友好的な人間のアシスタントが簡単に行うように、同じ会話でシームレスに連携することができる。
本稿では,マルチターン対話におけるTODとODDの融合の問題に対処する。
すなわち、対話は2つのモードから切り替わる。
論文 参考訳(メタデータ) (2021-09-09T09:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。