論文の概要: MMWOZ: Building Multimodal Agent for Task-oriented Dialogue
- arxiv url: http://arxiv.org/abs/2511.12586v1
- Date: Sun, 16 Nov 2025 13:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.391312
- Title: MMWOZ: Building Multimodal Agent for Task-oriented Dialogue
- Title(参考訳): MMWOZ:タスク指向対話のためのマルチモーダルエージェントの構築
- Authors: Pu-Hai Yang, Heyan Huang, Heng-Da Xu, Fanshu Sun, Xian-Ling Mao, Chaoxu Mu,
- Abstract要約: 我々は、MultiWOZ 2.3データセットから拡張された新しいマルチモーダル対話データセットを開発する。
MMWOZデータセットのベースラインモデルとして,MATEと呼ばれる新しいマルチモーダルモデルを提案する。
- 参考スコア(独自算出の注目度): 61.816787158531874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented dialogue systems have garnered significant attention due to their conversational ability to accomplish goals, such as booking airline tickets for users. Traditionally, task-oriented dialogue systems are conceptualized as intelligent agents that interact with users using natural language and have access to customized back-end APIs. However, in real-world scenarios, the widespread presence of front-end Graphical User Interfaces (GUIs) and the absence of customized back-end APIs create a significant gap for traditional task-oriented dialogue systems in practical applications. In this paper, to bridge the gap, we collect MMWOZ, a new multimodal dialogue dataset that is extended from MultiWOZ 2.3 dataset. Specifically, we begin by developing a web-style GUI to serve as the front-end. Next, we devise an automated script to convert the dialogue states and system actions from the original dataset into operation instructions for the GUI. Lastly, we collect snapshots of the web pages along with their corresponding operation instructions. In addition, we propose a novel multimodal model called MATE (Multimodal Agent for Task-oriEnted dialogue) as the baseline model for the MMWOZ dataset. Furthermore, we conduct comprehensive experimental analysis using MATE to investigate the construction of a practical multimodal agent for task-oriented dialogue.
- Abstract(参考訳): タスク指向の対話システムは,ユーザ向けの航空券の予約など,目標達成のための対話能力によって,大きな注目を集めている。
従来のタスク指向対話システムは、自然言語を使ってユーザと対話し、カスタマイズされたバックエンドAPIにアクセスするインテリジェントエージェントとして概念化されている。
しかし、現実のシナリオでは、フロントエンドのグラフィカルユーザインタフェース(GUI)が広く存在し、カスタマイズされたバックエンドAPIが存在しないことが、実践的なアプリケーションにおける従来のタスク指向の対話システムに大きなギャップを生じさせます。
本稿では,このギャップを埋めるために,MMWOZ 2.03データセットから拡張した新しいマルチモーダル対話データセットであるMMWOZを収集する。
具体的には、フロントエンドとして機能するWebスタイルのGUIを開発することから始めます。
次に、対話状態とシステムアクションを元のデータセットからGUIの操作命令に変換する自動スクリプトを作成する。
最後に、Webページのスナップショットと対応する操作指示を収集する。
さらに,MMWOZデータセットのベースラインモデルとして,MATE (Multimodal Agent for Task-oriEnted dialogue) と呼ばれる新しいマルチモーダルモデルを提案する。
さらに,タスク指向対話のための実用的なマルチモーダルエージェントの構築について,MATEを用いた総合的な実験分析を行った。
関連論文リスト
- Generative Interfaces for Language Models [70.25765232527762]
ユーザインタフェース(UI)を積極的に生成することにより,大規模言語モデル(LLM)がユーザクエリに応答するパラダイムを提案する。
本フレームワークは,ユーザクエリをタスク固有のUIに変換するために,構造化インターフェース固有の表現と反復的洗練を活用している。
その結果、生成的インタフェースは人間の嗜好を最大72%改善し、会話的インタフェースよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-08-26T17:43:20Z) - Multi-User MultiWOZ: Task-Oriented Dialogues among Multiple Users [51.34484827552774]
マルチユーザMulti-User MultiWOZデータセットを2つのユーザと1つのエージェント間のタスク指向対話としてリリースする。
これらの対話は、タスク指向のシナリオにおける協調的な意思決定の興味深いダイナミクスを反映している。
本稿では,複数ユーザ間のタスク指向のチャットを簡潔なタスク指向のクエリとして書き換える,マルチユーザコンテキストクエリ書き換えの新しいタスクを提案する。
論文 参考訳(メタデータ) (2023-10-31T14:12:07Z) - Leveraging Explicit Procedural Instructions for Data-Efficient Action
Prediction [5.448684866061922]
タスク指向の対話は、しばしばエージェントがユーザ要求を満たすために複雑で多段階の手順を実行する必要がある。
大規模言語モデルは、制約のある環境でこれらの対話を自動化することに成功したが、その広範な展開は、トレーニングに必要なタスク固有の大量のデータによって制限されている。
本稿では,エージェントガイドラインから導出した明示的な指示を利用して対話システムを構築するための,データ効率のよいソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-06T18:42:08Z) - Using Textual Interface to Align External Knowledge for End-to-End
Task-Oriented Dialogue Systems [53.38517204698343]
本稿では,外部知識の整合化と冗長なプロセスの排除にテキストインタフェースを用いた新しいパラダイムを提案する。
我々は、MultiWOZ-Remakeを用いて、MultiWOZデータベース用に構築されたインタラクティブテキストインタフェースを含む、我々のパラダイムを実演する。
論文 参考訳(メタデータ) (2023-05-23T05:48:21Z) - Dialog2API: Task-Oriented Dialogue with API Description and Example
Programs [57.336201096903466]
タスク指向対話のための新しいパラダイム、Dialog2APIを導入し、機能を大幅に拡張し、シームレスな対話体験を提供する。
また、対話ポリシーを管理し、適切な自然言語応答を生成することでユーザと対話する。
Dialog2APIは、ソフトウェア自動化やカスタマーサービスなど、多くのアプリケーションシナリオで動作する。
論文 参考訳(メタデータ) (2022-12-20T01:52:46Z) - Navigating Connected Memories with a Task-oriented Dialog System [13.117491508194242]
マルチターンで対話的な対話を通じて,ユーザがメディアコレクションを検索できるようにする強力なツールとして,コネクテッドメモリのためのダイアログを提案する。
新しいタスク指向のダイアログデータセットCOMETを使用し、シミュレーションされたパーソナルメモリグラフをベースとしたユーザ>アシスタントダイアログ(トータリング103k$発話)を含む。
COMETを分析し、意味のある進捗をベンチマークするために4つの主要なタスクを定式化し、最先端の言語モデルを強力なベースラインとして採用する。
論文 参考訳(メタデータ) (2022-11-15T19:31:57Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - Situated and Interactive Multimodal Conversations [21.391260370502224]
我々は,Situated Interactive MultiModal Conversations (SIMMC) をトレーニングエージェントの新たな方向性として紹介する。
マルチモーダルWizard-of-Oz(WoZ)セットアップを用いて,13K人の対話(169K発話)を総括した2つのSIMMCデータセットを提供する。
本稿では,構造化API予測や応答生成などの客観的評価プロトコルとして,SIMMC内のいくつかのタスクを提示する。
論文 参考訳(メタデータ) (2020-06-02T09:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。