論文の概要: SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal
Conversations
- arxiv url: http://arxiv.org/abs/2104.08667v1
- Date: Sun, 18 Apr 2021 00:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 04:39:42.338725
- Title: SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal
Conversations
- Title(参考訳): SIMMC 2.0: 没入型マルチモーダル会話のためのタスク指向ダイアログデータセット
- Authors: Satwik Kottur, Seungwhan Moon, Alborz Geramifard, Babak Damavandi
- Abstract要約: SIMMC 2.0は、マルチモーダルアシスタントエージェントの構築を成功に導くことを目的としています。
このデータセットは、ショッピングドメイン上のユーザーと仮想アシスタントの間の11Kタスク指向ダイアログ(117K発話)を備えています。
- 参考スコア(独自算出の注目度): 9.626560177660634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a new corpus for the Situated and Interactive Multimodal
Conversations, SIMMC 2.0, aimed at building a successful multimodal assistant
agent. Specifically, the dataset features 11K task-oriented dialogs (117K
utterances) between a user and a virtual assistant on the shopping domain
(fashion and furniture), grounded in situated and photo-realistic VR scenes.
The dialogs are collected using a two-phase pipeline, which first generates
simulated dialog flows via a novel multimodal dialog simulator we propose,
followed by manual paraphrasing of the generated utterances. In this paper, we
provide an in-depth analysis of the collected dataset, and describe in detail
the four main benchmark tasks we propose for SIMMC 2.0. The preliminary
analysis with a baseline model highlights the new challenges that the SIMMC 2.0
dataset brings, suggesting new directions for future research. Our dataset and
code will be made publicly available.
- Abstract(参考訳): 本稿では,対話型マルチモーダル対話のための新しいコーパスであるsimmc 2.0を提案する。
具体的には、ユーザーとショッピングドメイン(ファッションと家具)のバーチャルアシスタントとの間の1万1千件のタスク指向の対話(117K発声)が、位置と写真リアルなVRシーンに接地されている。
提案するマルチモーダルダイアログシミュレータを介して,まずシミュレーションされたダイアログフローを生成し,その後に生成した発話を手作業でパラフレージングする2相パイプラインを用いてダイアログを収集する。
本稿では,収集したデータセットの詳細な分析を行い,SIMMC 2.0の4つの主要なベンチマークタスクについて詳述する。
ベースラインモデルによる予備的な分析は、SIMMC 2.0データセットがもたらす新たな課題を強調し、将来の研究の新たな方向性を示唆している。
私たちのデータセットとコードは公開される予定だ。
関連論文リスト
- MM-Conv: A Multi-modal Conversational Dataset for Virtual Humans [4.098892268127572]
物理シミュレーター(AI2-THOR)内の参加者間の会話を記録するためにVRヘッドセットを用いた新しいデータセットを提案する。
我々の主な目的は、参照設定にリッチな文脈情報を組み込むことで、共同音声ジェスチャ生成の分野を拡張することである。
論文 参考訳(メタデータ) (2024-09-30T21:51:30Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue [50.279206765971125]
本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
論文 参考訳(メタデータ) (2023-02-28T15:45:20Z) - Navigating Connected Memories with a Task-oriented Dialog System [13.117491508194242]
マルチターンで対話的な対話を通じて,ユーザがメディアコレクションを検索できるようにする強力なツールとして,コネクテッドメモリのためのダイアログを提案する。
新しいタスク指向のダイアログデータセットCOMETを使用し、シミュレーションされたパーソナルメモリグラフをベースとしたユーザ>アシスタントダイアログ(トータリング103k$発話)を含む。
COMETを分析し、意味のある進捗をベンチマークするために4つの主要なタスクを定式化し、最先端の言語モデルを強力なベースラインとして採用する。
論文 参考訳(メタデータ) (2022-11-15T19:31:57Z) - Information Extraction and Human-Robot Dialogue towards Real-life Tasks:
A Baseline Study with the MobileCS Dataset [52.22314870976088]
SereTODチャレンジは、実際のユーザとChina Mobileのカスタマーサービススタッフの実際のダイアログ書き起こしで構成されるMobileCSデータセットを編成してリリースする。
MobileCSデータセットに基づいて、SereTODチャレンジには2つのタスクがあり、対話システム自体の構築を評価するだけでなく、ダイアログの書き起こしからの情報も抽出する。
本稿では主に,MobileCSデータセットを用いた2つのタスクのベースラインスタディを示す。
論文 参考訳(メタデータ) (2022-09-27T15:30:43Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - Multimodal Interactions Using Pretrained Unimodal Models for SIMMC 2.0 [1.599072005190786]
本稿では,Dialog State Tracking Challenge 10で実施されたSituated Interactive MultiModal Conversations 2.0の課題について述べる。
本稿では,サブタスク#1,#2およびサブタスク#5の生成に対するマルチモーダルアプローチを紹介する。
サブタスク#1,#2では3位,サブタスク#5では1位である。
論文 参考訳(メタデータ) (2021-12-10T04:20:08Z) - Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文 参考訳(メタデータ) (2021-11-22T23:30:52Z) - Situated and Interactive Multimodal Conversations [21.391260370502224]
我々は,Situated Interactive MultiModal Conversations (SIMMC) をトレーニングエージェントの新たな方向性として紹介する。
マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,13K人の対話(169K発話)を総括した2つのSIMMCデータセットを提供する。
本稿では,構造化API予測や応答生成などの客観的評価プロトコルとして,SIMMC内のいくつかのタスクを提示する。
論文 参考訳(メタデータ) (2020-06-02T09:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。