論文の概要: A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System
- arxiv url: http://arxiv.org/abs/2305.17433v1
- Date: Sat, 27 May 2023 10:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 19:26:36.767308
- Title: A Unified Framework for Slot based Response Generation in a Multimodal
Dialogue System
- Title(参考訳): マルチモーダル対話システムにおけるスロットベース応答生成のための統一フレームワーク
- Authors: Mauajama Firdaus, Avinash Madasu, Asif Ekbal
- Abstract要約: 自然言語理解(NLU)と自然言語生成(NLG)は、すべての会話システムにおいて重要な要素である。
発話から必要なスロット値を抽出できるエンドツーエンドフレームワークを提案する。
事前学習したダイアロGPTを用いたマルチモーダル階層エンコーダを用いて、両方のタスクに対してより強力なコンテキストを提供する。
- 参考スコア(独自算出の注目度): 25.17100881568308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Understanding (NLU) and Natural Language Generation (NLG)
are the two critical components of every conversational system that handles the
task of understanding the user by capturing the necessary information in the
form of slots and generating an appropriate response in accordance with the
extracted information. Recently, dialogue systems integrated with complementary
information such as images, audio, or video have gained immense popularity. In
this work, we propose an end-to-end framework with the capability to extract
necessary slot values from the utterance and generate a coherent response,
thereby assisting the user to achieve their desired goals in a multimodal
dialogue system having both textual and visual information. The task of
extracting the necessary information is dependent not only on the text but also
on the visual cues present in the dialogue. Similarly, for the generation, the
previous dialog context comprising multimodal information is significant for
providing coherent and informative responses. We employ a multimodal
hierarchical encoder using pre-trained DialoGPT and also exploit the knowledge
base (Kb) to provide a stronger context for both the tasks. Finally, we design
a slot attention mechanism to focus on the necessary information in a given
utterance. Lastly, a decoder generates the corresponding response for the given
dialogue context and the extracted slot values. Experimental results on the
Multimodal Dialogue Dataset (MMD) show that the proposed framework outperforms
the baselines approaches in both the tasks. The code is available at
https://github.com/avinashsai/slot-gpt.
- Abstract(参考訳): 自然言語理解(NLU)と自然言語生成(NLG)は、必要な情報をスロットの形で取得し、抽出した情報に応じて適切な応答を生成することにより、ユーザを理解するタスクを処理するすべての会話システムの2つの重要なコンポーネントである。
近年,画像,音声,映像などの補完的情報と統合した対話システムが広く普及している。
本研究では,テキスト情報と視覚情報の両方を有するマルチモーダル対話システムにおいて,発話から必要なスロット値を抽出し,コヒーレント応答を生成する機能を備えたエンド・ツー・エンドのフレームワークを提案する。
必要な情報を抽出するタスクは、テキストだけでなく、対話に存在する視覚的な手がかりにも依存する。
同様に、生成には、マルチモーダル情報を含む前のダイアログコンテキストが、コヒーレントかつインフォメーションな応答を提供する上で重要である。
事前学習したDialoGPTを用いたマルチモーダル階層エンコーダと、知識ベース(Kb)を利用して、両方のタスクに対してより強力なコンテキストを提供する。
最後に、所定の発話における必要な情報に焦点を当てるスロットアテンション機構を設計する。
そして、デコーダは、与えられた対話コンテキストと抽出されたスロット値に対応する応答を生成する。
multimodal dialogue dataset (mmd) を用いた実験の結果,提案手法が両タスクのベースラインアプローチを上回っていることがわかった。
コードはhttps://github.com/avinashsai/slot-gptで入手できる。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Contextual Dynamic Prompting for Response Generation in Task-oriented
Dialog Systems [8.419582942080927]
応答生成はタスク指向対話システムにおいて重要なコンポーネントの1つである。
本稿では,対話コンテキストからプロンプトを学習するテキスト動的プロンプトを実現する手法を提案する。
文脈的動的プロンプトは,3つの絶対点で構造化されたテキスト合成スコア citemehri-etal 2019 を用いて応答生成を改善することを示す。
論文 参考訳(メタデータ) (2023-01-30T20:26:02Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - Alexa Conversations: An Extensible Data-driven Approach for Building
Task-oriented Dialogue Systems [21.98135285833616]
従来の目標指向対話システムは、自然言語理解、対話状態追跡、政策学習、応答生成など、さまざまなコンポーネントに依存している。
スケーラブルかつデータ効率の高い,目標指向の対話システム構築のための新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-19T07:09:27Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。