論文の概要: TikTalk: A Multi-Modal Dialogue Dataset for Real-World Chitchat
- arxiv url: http://arxiv.org/abs/2301.05880v1
- Date: Sat, 14 Jan 2023 10:18:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 18:25:49.600526
- Title: TikTalk: A Multi-Modal Dialogue Dataset for Real-World Chitchat
- Title(参考訳): TikTalk: リアルタイムチャットのためのマルチモーダル対話データセット
- Authors: Hongpeng Lin, Ludan Ruan, Wenke Xia, Peiyu Liu, Jingyuan Wen, Yixin
Xu, Di Hu, Ruihua Song, Wayne Xin Zhao, Qin Jin and Zhiwu Lu
- Abstract要約: 本稿では,マルチモーダルな対話データセットTikTalkを提案する。
ビデオソーシャルアプリケーションでユーザが生成するビデオとそれに対応する対話で構成されている。
TikTalkには38K以上のビデオと367Kの対話が含まれている。
- 参考スコア(独自算出の注目度): 65.41061393851506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel multi-modal chitchat dialogue dataset-TikTalk aimed at
facilitating the research of intelligent chatbots. It consists of the videos
and corresponding dialogues users generate on video social applications. In
contrast to existing multi-modal dialogue datasets, we construct dialogue
corpora based on video comment-reply pairs, which is more similar to chitchat
in real-world dialogue scenarios. Our dialogue context includes three
modalities: text, vision, and audio. Compared with previous image-based
dialogue datasets, the richer sources of context in TikTalk lead to a greater
diversity of conversations. TikTalk contains over 38K videos and 367K
dialogues. Data analysis shows that responses in TikTalk are in correlation
with various contexts and external knowledge. It poses a great challenge for
the deep understanding of multi-modal information and the generation of
responses. We evaluate several baselines on three types of automatic metrics
and conduct case studies. Experimental results demonstrate that there is still
a large room for future improvement on TikTalk. Our dataset is available at
\url{https://github.com/RUC-AIMind/TikTalk}.
- Abstract(参考訳): 本稿では,知的チャットボットの研究を促進することを目的とした,マルチモーダルな対話データセットTikTalkを提案する。
ビデオソーシャルアプリケーションでユーザーが生成するビデオと対応する対話で構成される。
既存のマルチモーダル対話データセットとは対照的に,実世界の対話シナリオにおけるchitchatに類似したビデオコメント応答ペアに基づく対話コーパスを構築する。
私たちの対話コンテキストには、テキスト、視覚、音声の3つのモダリティが含まれています。
従来の画像ベースの対話データセットと比較して、TikTalkのコンテキストの豊富なソースは、会話の多様性を増す。
TikTalkには38Kビデオと367K対話が含まれている。
データ分析により、TikTalkの応答は様々な文脈や外部知識と相関していることが示された。
マルチモーダル情報の深い理解と応答の生成には大きな課題があります。
3種類の自動メトリクスのベースラインを評価し,ケーススタディを実施した。
実験の結果、tiktalkの今後の改善の余地はまだ大きいことがわかった。
データセットは \url{https://github.com/RUC-AIMind/TikTalk} で利用可能です。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Affective Faces for Goal-Driven Dyadic Communication [16.72177738101024]
本稿では,言語会話における言語コミュニケーションと非言語コミュニケーションの関連をモデル化するためのビデオフレームワークを提案する。
本手法では,社会的に適切な表情を持つリスナーの映像を検索する。
論文 参考訳(メタデータ) (2023-01-26T05:00:09Z) - Exploring Effective Information Utilization in Multi-Turn Topic-Driven
Conversations [11.550422073645425]
We encodeed topic and dialogue history information using certain prompts with multiple channel of Fusion-in-Decoder (FiD)
本稿では,最近のニュースを中心に会話が展開されるNaturalConvという,中国の特定のデータセットに焦点を当てた実験を行った。
論文 参考訳(メタデータ) (2022-09-01T06:20:39Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文 参考訳(メタデータ) (2021-11-22T23:30:52Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn
Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。
私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文 参考訳(メタデータ) (2020-04-08T16:25:39Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。