論文の概要: MemeCMD: An Automatically Generated Chinese Multi-turn Dialogue Dataset with Contextually Retrieved Memes
- arxiv url: http://arxiv.org/abs/2507.00891v1
- Date: Tue, 01 Jul 2025 15:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.71706
- Title: MemeCMD: An Automatically Generated Chinese Multi-turn Dialogue Dataset with Contextually Retrieved Memes
- Title(参考訳): MemeCMD: 文脈検索ミームを用いた中国語多元対話データセット
- Authors: Yuheng Wang, Xianhe Tang, Pufeng Huang,
- Abstract要約: 自動生成する中国語マルチターン対話データセットであるMemeCMDを紹介した。
我々のデータセットはMLLMアノテーション付き大規模ライブラリと多種多様なシナリオで二重エージェントが自動生成する対話を組み合わせる。
- 参考スコア(独自算出の注目度): 0.9121437356699357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Memes are widely used in online social interactions, providing vivid, intuitive, and often humorous means to express intentions and emotions. Existing dialogue datasets are predominantly limited to either manually annotated or pure-text conversations, lacking the expressiveness and contextual nuance that multimodal interactions provide.To address these challenges, we introduce MemeCMD, an automatically generated Chinese Multi-turn Dialogue dataset with contextually retrieved memes. Our dataset combines a large-scale, MLLM-annotated meme library with dialogues auto-generated by dual agents across diverse scenarios. We introduce a retrieval framework and adaptive threshold to ensure contextually relevant, naturally spaced meme usage. Experiments demonstrate the effectiveness of our approach in generating contextually appropriate and diverse meme-incorporated dialogues, offering a scalable and privacy-preserving resource for advancing multimodal conversational AI.
- Abstract(参考訳): ミームはオンラインの社会的相互作用において広く使われており、意図や感情を表現するための鮮明で直感的でユーモラスな手段を提供する。
既存の対話データセットは手動のアノテートや純粋テキストの会話に限られており、マルチモーダル対話が提供する表現性や文脈ニュアンスに欠けており、これらの課題に対処するために、文脈的に検索されたミームを自動生成する中国語多元対話データセットであるMemeCMDを導入する。
我々のデータセットはMLLMアノテーション付き大規模ライブラリと多種多様なシナリオで二重エージェントが自動生成する対話を組み合わせる。
検索フレームワークと適応しきい値を導入し、文脈的に関連性があり、自然に空間化されたミームの使用を保証する。
実験では、文脈的に適切で多様なミームを組み込んだ対話を生成するためのアプローチの有効性を実証し、マルチモーダルな会話AIを前進させるためのスケーラブルでプライバシ保護リソースを提供する。
関連論文リスト
- DialogueAgents: A Hybrid Agent-Based Speech Synthesis Framework for Multi-Party Dialogue [17.397151329196955]
本稿では,新しいハイブリッドエージェントベース音声合成フレームワークであるDialogueAgentsを提案する。
バイリンガル・マルチパーティ・マルチターン音声対話データセットであるMultiTalkにコントリビュートする。
論文 参考訳(メタデータ) (2025-04-20T04:14:30Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched
Contextualization [31.209594252045566]
本稿では,ミームと関連する文書を与えられた新しいタスクMEMEXを提案し,ミームの背景を簡潔に説明するコンテキストを掘り下げることを目的とする。
MCCをベンチマークするために,共通感覚に富んだミーム表現を用いたマルチモーダル・ニューラル・フレームワークであるMIMEと,ミームとコンテキスト間の相互モーダルなセマンティック依存関係を捉える階層的アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-25T10:19:35Z) - A Mixture-of-Expert Approach to RL-based Dialogue Management [56.08449336469477]
我々は、強化学習を用いて、近視性(一般的な発話の出力)を回避し、全体的なユーザ満足度を最大化する対話エージェントを開発する。
既存のRLアプローチのほとんどは、単語レベルでエージェントを訓練するので、中規模の語彙であっても、非常に複雑なアクション空間を扱う必要がある。
i)会話履歴の多様な意味を学習できるLMと、(ii)対応する発話を生成できる専門的なLM(または専門家)からなる、新しい専門家言語モデル(MoE-LM)を用いたRLベースのDMを開発する。
論文 参考訳(メタデータ) (2022-05-31T19:00:41Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Towards Building an Open-Domain Dialogue System Incorporated with
Internet Memes [19.57042922215698]
本稿では,MDC10 のオープンドメイン対話 (MOD) チャレンジに対するソリューションを提案する。
我々は,協調的かつ情報的応答生成のための大規模事前学習対話モデルを利用する。
インタラクションベースのテキストマッチングに基づいて,適切なミームを適切な一般化能力で検索できる。
論文 参考訳(メタデータ) (2022-03-08T03:54:02Z) - MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.81525961469494]
マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。
MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。
本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
論文 参考訳(メタデータ) (2022-02-28T09:40:46Z) - Towards Expressive Communication with Internet Memes: A New Multimodal
Conversation Dataset and Benchmark [28.255324166852535]
我々はtextbfMeme を組み込んだ textbfOpen- domain textbfDialogue (MOD) という新しいタスクを提案する。
MODは、モデルがマルチモーダル要素とそれらの背後にある感情を理解する必要があるため、はるかに難しいです。
大量のインターネットミームを発話に組み込んだ大規模オープンドメインマルチモーダル対話データセットを構築した。
論文 参考訳(メタデータ) (2021-09-04T10:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。