論文の概要: Situated and Interactive Multimodal Conversations
- arxiv url: http://arxiv.org/abs/2006.01460v2
- Date: Tue, 10 Nov 2020 20:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 23:09:19.101028
- Title: Situated and Interactive Multimodal Conversations
- Title(参考訳): 位置と対話的なマルチモーダル会話
- Authors: Seungwhan Moon, Satwik Kottur, Paul A. Crook, Ankita De, Shivani
Poddar, Theodore Levin, David Whitney, Daniel Difranco, Ahmad Beirami,
Eunjoon Cho, Rajen Subba, Alborz Geramifard
- Abstract要約: 我々は,Situated Interactive MultiModal Conversations (SIMMC) をトレーニングエージェントの新たな方向性として紹介する。
マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,13K人の対話(169K発話)を総括した2つのSIMMCデータセットを提供する。
本稿では,構造化API予測や応答生成などの客観的評価プロトコルとして,SIMMC内のいくつかのタスクを提示する。
- 参考スコア(独自算出の注目度): 21.391260370502224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next generation virtual assistants are envisioned to handle multimodal inputs
(e.g., vision, memories of previous interactions, in addition to the user's
utterances), and perform multimodal actions (e.g., displaying a route in
addition to generating the system's utterance). We introduce Situated
Interactive MultiModal Conversations (SIMMC) as a new direction aimed at
training agents that take multimodal actions grounded in a co-evolving
multimodal input context in addition to the dialog history. We provide two
SIMMC datasets totalling ~13K human-human dialogs (~169K utterances) using a
multimodal Wizard-of-Oz (WoZ) setup, on two shopping domains: (a) furniture
(grounded in a shared virtual environment) and, (b) fashion (grounded in an
evolving set of images). We also provide logs of the items appearing in each
scene, and contextual NLU and coreference annotations, using a novel and
unified framework of SIMMC conversational acts for both user and assistant
utterances. Finally, we present several tasks within SIMMC as objective
evaluation protocols, such as Structural API Prediction and Response
Generation. We benchmark a collection of existing models on these SIMMC tasks
as strong baselines, and demonstrate rich multimodal conversational
interactions. Our data, annotations, code, and models are publicly available.
- Abstract(参考訳): 次世代の仮想アシスタントは、マルチモーダル入力(例えば、ユーザの発話に加えて、以前のインタラクションの視覚、記憶)を処理し、マルチモーダルアクション(例えば、システムの発話生成に加えて経路を表示する)を行うように想定されている。
我々は,対話履歴に加えて,マルチモーダルな入力コンテキストを基盤としたマルチモーダルな動作を行う訓練エージェントを指向した,Situated Interactive MultiModal Conversations (SIMMC) を新たに導入する。
マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,2つのショッピングドメインに合計13K人の対話(~169K発話)を集計したSIMMCデータセットを提供する。
(a)家具(共有仮想環境内にあるもの)及び
(b)ファッション(進化した画像のセットでグラウンド化)。
また,各場面に出現する項目のログと文脈的NLUおよびコア参照アノテーションを,ユーザおよびアシスタント発話のSIMMC会話行動の新しい統一フレームワークを用いて提供する。
最後に、構造化API予測や応答生成などの客観的評価プロトコルとして、SIMMC内のいくつかのタスクを提示する。
SIMMCタスク上の既存のモデルの集合を強力なベースラインとしてベンチマークし、リッチなマルチモーダル対話相互作用を示す。
私たちのデータ、アノテーション、コード、モデルは公開されています。
関連論文リスト
- MEIA: Multimodal Embodied Perception and Interaction in Unknown Environments [82.67236400004826]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
MEMモジュールは、多様な要件とロボットの能力に基づいて、MEIAが実行可能なアクションプランを生成することを可能にする。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Multitask Multimodal Prompted Training for Interactive Embodied Task
Completion [48.69347134411864]
Embodied MultiModal Agent (EMMA) はエンコーダとデコーダの統一モデルである。
すべてのタスクをテキスト生成として統一することで、EMMAはタスク間の転送を容易にするアクション言語を学ぶ。
論文 参考訳(メタデータ) (2023-11-07T15:27:52Z) - Revisiting Disentanglement and Fusion on Modality and Context in
Conversational Multimodal Emotion Recognition [81.2011058113579]
特徴の多様性と会話の文脈化は、特徴の絡み合いと融合の段階において、同時に適切にモデル化されるべきである。
マルチモーダル・コンテキスト統合のためのコントリビューション・アウェア・フュージョン・メカニズム(CFM)とコンテキスト・リフュージョン・メカニズム(CRM)を提案する。
我々のシステムは、新しい最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2023-08-08T18:11:27Z) - Which One Are You Referring To? Multimodal Object Identification in
Situated Dialogue [50.279206765971125]
本稿では,会話や状況から多モーダル入力を解釈する3つの手法について検討する。
最適手法であるシーン対話アライメントは,SIMMC 2.1ベースラインと比較して20%F1スコアで性能を向上する。
論文 参考訳(メタデータ) (2023-02-28T15:45:20Z) - Building Goal-Oriented Dialogue Systems with Situated Visual Context [12.014793558784955]
スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
論文 参考訳(メタデータ) (2021-11-22T23:30:52Z) - SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal
Conversations [9.626560177660634]
SIMMC 2.0は、マルチモーダルアシスタントエージェントの構築を成功に導くことを目的としています。
このデータセットは、ショッピングドメイン上のユーザーと仮想アシスタントの間の11Kタスク指向ダイアログ(117K発話)を備えています。
論文 参考訳(メタデータ) (2021-04-18T00:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。