論文の概要: DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset
- arxiv url: http://arxiv.org/abs/2606.00012v1
- Date: Mon, 13 Apr 2026 04:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.568825
- Title: DraDDP: A Multimodal Multi-Party Dialogue Discourse Parsing Dataset
- Title(参考訳): DraDDP:マルチモーダル多人数対話談話解析データセット
- Authors: Shannan Liu, Peifeng Li, Yaxin Fan, Qiaoming Zhu,
- Abstract要約: 我々は,多人数対話音声解析のための,初めて公開された英語マルチモーダルデータセットDraDDPを構築した。
DraDDPには495の対話セグメントがあり、6,374の発話と9.1時間の並列ビデオコンテンツがあり、リッチなマルチパーティの対話シナリオをカバーしている。
- 参考スコア(独自算出の注目度): 27.93278378010648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-party dialogue discourse parsing aims to identify dependency structures and relation types between utterances in conversations. Previous studies are mostly limited to textual modality or two-party dialogue, failing to meet the multimodal and multi-party settings. In this paper, we construct the first publicly available English multimodal dataset DraDDP for multi-party dialogue discourse parsing, based on American TV dramas. DraDDP contains 495 dialogue segments with 6,374 utterances and 9.1 hours of parallel video content, covering rich multi-party interaction scenarios. Moreover, we establish comprehensive benchmarks by evaluating this task on DraDDP and conducting in-depth analysis on the impact of different modalities. Experimental results demonstrate the value of multimodal information in capturing dialogue structures and relation types. We will publicly release the dataset, annotation guidelines, and code to promote future research in multimodal dialogue understanding.
- Abstract(参考訳): 多人数対話談話解析は、会話における発話間の依存関係構造と関係型を特定することを目的としている。
これまでの研究は、主にテキストのモダリティや双方向の対話に限られており、マルチモーダルやマルチパーティの設定を満たさない。
本稿では,アメリカテレビドラマをベースとした多人数対話談話解析のための英語マルチモーダルデータセットDraDDPを構築した。
DraDDPには495の対話セグメントがあり、6,374の発話と9.1時間の並列ビデオコンテンツがあり、リッチなマルチパーティの対話シナリオをカバーしている。
さらに、このタスクをDraDDP上で評価し、異なるモーダルの影響について詳細な分析を行うことにより、包括的なベンチマークを確立する。
実験結果から,対話構造と関係型をキャプチャする際のマルチモーダル情報の価値が示された。
我々は,マルチモーダル対話理解における今後の研究を促進するために,データセット,アノテーションガイドライン,コードを公開する。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - VSTAR: A Video-grounded Dialogue Dataset for Situated Semantic
Understanding with Scene and Topic Transitions [47.94531693056304]
ビデオ地上対話理解は、機械が位置するセマンティクスを知覚し、解析し、理性を必要とする難しい問題である。
395のテレビシリーズをベースとした大規模ビデオ地上対話理解データセットであるビデオ地上Scene&Topic AwaRe対話データセットを提案する。
論文 参考訳(メタデータ) (2023-05-30T05:40:37Z) - Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance
Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-04T11:35:23Z) - Dependency Dialogue Acts -- Annotation Scheme and Case Study [15.8694636234463]
依存性対話法(Dependency Dialogue Acts, DDA)は、多人数対話における話者意図の構造を捉えるための新しい枠組みである。
それは多人数のマルチスレッド会話における機能的、言論的、および応答構造を表す。
論文 参考訳(メタデータ) (2023-02-25T00:41:46Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z) - DialogCC: An Automated Pipeline for Creating High-Quality Multi-Modal Dialogue Dataset [18.449076451976236]
本稿では,マルチモーダル対話データセットを構築するための自動パイプラインを提案する。
我々のパイプラインでは、画像と対話のコヒーレンスを保証するため、GPT-4に潜在的な画像共有モーメントを推測するよう促す。
このパイプラインを通じて、高品質で多様な多モード対話データセットであるDialogCCを紹介する。
論文 参考訳(メタデータ) (2022-12-08T07:29:07Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - MSCTD: A Multimodal Sentiment Chat Translation Dataset [66.81525961469494]
マルチモーダルチャット翻訳(MCT)という新しいタスクを導入する。
MCTは、関連する対話履歴と視覚的コンテキストの助けを借りて、より正確な翻訳を生成することを目的としている。
本研究は,マルチモーダルチャット翻訳とマルチモーダル対話感情分析の両方の研究を容易にする。
論文 参考訳(メタデータ) (2022-02-28T09:40:46Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。