論文の概要: Building Goal-Oriented Dialogue Systems with Situated Visual Context
- arxiv url: http://arxiv.org/abs/2111.11576v1
- Date: Mon, 22 Nov 2021 23:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 14:11:43.150456
- Title: Building Goal-Oriented Dialogue Systems with Situated Visual Context
- Title(参考訳): 視覚環境を考慮したゴール指向対話システムの構築
- Authors: Sanchit Agarwal, Jan Jezabek, Arijit Biswas, Emre Barut, Shuyang Gao,
Tagyoung Chung
- Abstract要約: スクリーン付きバーチャルアシスタントの急増に伴い、次世代のエージェントはスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次の行動とその議論を対話と視覚の両方で協調的に条件付けする,新しい多モーダル対話フレームワークを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星のレーティングといったメタデータに基づく特徴を認識できる。
- 参考スコア(独自算出の注目度): 12.014793558784955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most popular goal-oriented dialogue agents are capable of understanding the
conversational context. However, with the surge of virtual assistants with
screen, the next generation of agents are required to also understand screen
context in order to provide a proper interactive experience, and better
understand users' goals. In this paper, we propose a novel multimodal
conversational framework, where the dialogue agent's next action and their
arguments are derived jointly conditioned both on the conversational and the
visual context. Specifically, we propose a new model, that can reason over the
visual context within a conversation and populate API arguments with visual
entities given the user query. Our model can recognize visual features such as
color and shape as well as the metadata based features such as price or star
rating associated with a visual entity. In order to train our model, due to a
lack of suitable multimodal conversational datasets, we also propose a novel
multimodal dialog simulator to generate synthetic data and also collect
realistic user data from MTurk to improve model robustness. The proposed model
achieves a reasonable 85% model accuracy, without high inference latency. We
also demonstrate the proposed approach in a prototypical furniture shopping
experience for a multimodal virtual assistant.
- Abstract(参考訳): 最も一般的な目標指向対話エージェントは会話の文脈を理解することができる。
しかし、画面付きバーチャルアシスタントの普及に伴い、対話的な体験を適切に提供し、ユーザの目標をよりよく理解するために、次世代エージェントもスクリーンコンテキストを理解する必要がある。
本稿では,対話エージェントの次のアクションとその引数が,対話エージェントと視覚コンテキストの両方で協調して引き出される,新たなマルチモーダル対話フレームワークを提案する。
具体的には,会話中の視覚的コンテキストを推論し,ユーザクエリによってAPI引数を視覚的エンティティに集約する新しいモデルを提案する。
我々のモデルは、色や形状などの視覚的特徴と、視覚的実体に関連する価格や星格などのメタデータに基づく特徴を認識することができる。
また,マルチモーダル対話型データセットが不足しているために,合成データを生成するためのマルチモーダルダイアログシミュレータを提案し,モデルロバスト性を向上させるためにmturkから現実的なユーザデータを収集する。
提案モデルでは,高い推論遅延を伴わずに,妥当な85%のモデル精度を実現する。
また,マルチモーダル仮想アシスタントのためのプロトタイプ型家具ショッピング体験において,提案手法を実証する。
関連論文リスト
- Enhancing Multimodal Query Representation via Visual Dialogues for End-to-End Knowledge Retrieval [26.585985828583304]
本稿では,マルチモーダルクエリを理解可能なテキスト検索機能を実現するために,エンドツーエンドのマルチモーダル検索システムRet-XKnowを提案する。
マルチモーダルインタラクションを効果的に学習するために、視覚対話データセットから構築したVisual Dialogue-to-Retrievalデータセットも導入する。
提案手法は,ゼロショット設定における検索性能を大幅に向上するだけでなく,微調整シナリオの大幅な改善も達成できることを示す。
論文 参考訳(メタデータ) (2024-11-13T04:32:58Z) - ChatterBox: Multi-round Multimodal Referring and Grounding [108.9673313949746]
この目的のために,新しいベンチマークと効率的な視覚言語モデルを提案する。
提案したChatterBoxは、2ブランチアーキテクチャを使って視覚と言語タスクを協調的に処理する。
実験の結果、ChatterBoxはMRGの既存のモデルよりも定量的にも質的にも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-24T09:02:00Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - 'What are you referring to?' Evaluating the Ability of Multi-Modal
Dialogue Models to Process Clarificational Exchanges [65.03196674816772]
参照表現が宛先に対して意図された参照を一意に識別しない場合、参照の曖昧さが対話で生じる。
出席者は、通常、そのような曖昧さをすぐに検知し、メタコミュニケーション、明確化取引所(CE: Meta-communicative, Clarification Exchanges)を使用して、話者と作業する。
ここでは、CRを生成・応答する能力は、マルチモーダルな視覚的基盤を持つ対話モデルのアーキテクチャと目的関数に特定の制約を課していると論じる。
論文 参考訳(メタデータ) (2023-07-28T13:44:33Z) - IMAD: IMage-Augmented multi-modal Dialogue [0.043847653914745384]
本稿では,対話の文脈でイメージを解釈するマルチモーダル対話システムについて,新しい視点を提示する。
マルチモーダル対話データセットを自動構築する2段階の手法を提案する。
最初の段階では、テキストと画像の類似性と文の類似性を利用して、どの発話を画像に置き換えるかを識別する。
第2段階では、関連する画像のサブセットを選択し、視覚的質問応答モデルでフィルタリングすることで、これらの発話を置き換える。
論文 参考訳(メタデータ) (2023-05-17T18:38:10Z) - MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action [96.33509740612486]
MM-REACTは、マルチモーダル推論とアクションを達成するために、ChatGPTとビジョンエキスパートのプールを統合するシステムパラダイムである。
MM-REACTのプロンプト設計により、言語モデルはマルチモーダル情報を受け入れ、関連づけ、処理することができる。
論文 参考訳(メタデータ) (2023-03-20T18:31:47Z) - Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation [35.45552689723718]
実世界におけるマルチモーダルダイアログ生成の特定の事例を解決するためのフレームワークを提案する。
具体的には,テキスト・視覚的特徴間の相互依存をモデル化することを提案する。
テキストと視覚的特徴間の相互依存がモデル化されている場合、バニラモデルよりも顕著なパフォーマンス向上が観察される。
論文 参考訳(メタデータ) (2021-05-30T07:20:28Z) - Variational Hierarchical Dialog Autoencoder for Dialog State Tracking
Data Augmentation [59.174903564894954]
本研究では,この手法を,ゴール指向対話のための対話状態追跡タスクに拡張する。
目的指向ダイアログの完全な側面をモデル化するための変分階層型ダイアログオートエンコーダ(VHDA)を提案する。
各種ダイアログデータセットを用いた実験により、生成データ拡張による下流ダイアログトラッカーのロバスト性の向上が示された。
論文 参考訳(メタデータ) (2020-01-23T15:34:56Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。