論文の概要: VDialogUE: A Unified Evaluation Benchmark for Visually-grounded Dialogue
- arxiv url: http://arxiv.org/abs/2309.07387v1
- Date: Thu, 14 Sep 2023 02:09:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:27:13.447277
- Title: VDialogUE: A Unified Evaluation Benchmark for Visually-grounded Dialogue
- Title(参考訳): VDialogUE:視覚対話のための統一評価ベンチマーク
- Authors: Yunshui Li, Binyuan Hui, Zhaochao Yin, Wanwei He, Run Luo, Yuxing
Long, Min Yang, Fei Huang, Yongbin Li
- Abstract要約: textbfUnified textbfEvaluation のためのtextbfVisually-grounded textbfDialogue ベンチマークである textbfVDialogUE を提案する。
5つのコアマルチモーダル対話タスクを定義し、6つのデータセットをカバーする。
また,textbfVISIT(textbfVISually-grounded dtextbfIalog textbfTransformer)という,単純で効率的なベースラインモデルも提示し,その進歩を促進させる。
- 参考スコア(独自算出の注目度): 70.64560638766018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually-grounded dialog systems, which integrate multiple modes of
communication such as text and visual inputs, have become an increasingly
popular area of investigation. However, the absence of a standardized
evaluation framework poses a challenge in assessing the development of this
field. To this end, we propose \textbf{VDialogUE}, a \textbf{V}isually-grounded
\textbf{Dialog}ue benchmark for \textbf{U}nified \textbf{E}valuation. It
defines five core multi-modal dialogue tasks and covers six datasets.
Furthermore, in order to provide a comprehensive assessment of the model's
performance across all tasks, we developed a novel evaluation metric called
VDscore, which is based on the Analytic Hierarchy Process~(AHP) method.
Additionally, we present a straightforward yet efficient baseline model, named
\textbf{VISIT}~(\textbf{VIS}ually-grounded d\textbf{I}alog
\textbf{T}ransformer), to promote the advancement of general multi-modal
dialogue systems. It progressively builds its multi-modal foundation and
dialogue capability via a two-stage pre-training strategy.
We believe that the VDialogUE benchmark, along with the evaluation scripts
and our baseline models, will accelerate the development of visually-grounded
dialog systems and lead to the development of more sophisticated and effective
pre-trained models.
- Abstract(参考訳): テキストや視覚入力といった複数モードのコミュニケーションを統合した視覚的接地ダイアログシステムは、ますます多くの調査対象となっている。
しかし、標準化された評価フレームワークが存在しないことは、この分野の開発を評価する上での課題となる。
この目的のために、我々は \textbf{u}nified \textbf{e}valuation のための \textbf{v}isuallygrounded \textbf{dialog}ueベンチマークである \textbf{vdialogue} を提案する。
5つのコアマルチモーダル対話タスクを定義し、6つのデータセットをカバーする。
さらに,全タスクにわたってモデルの性能を総合的に評価するために,分析階層プロセス~(AHP)法に基づくVDscoreと呼ばれる新しい評価指標を開発した。
さらに, 汎用マルチモーダル対話システムの進展を促進するために, 直感的かつ効率的なベースラインモデルである \textbf{VISIT}~(\textbf{VIS}ually-grounded d\textbf{I}alog \textbf{T}ransformer を提案する。
2段階の事前学習戦略を通じて、マルチモーダル基礎と対話能力を徐々に構築している。
VDialogUEベンチマークは、評価スクリプトとベースラインモデルとともに、視覚的に接地された対話システムの開発を加速し、より高度で効果的な事前学習モデルの開発につながると信じている。
関連論文リスト
- FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - Is MultiWOZ a Solved Task? An Interactive TOD Evaluation Framework with
User Simulator [37.590563896382456]
タスク指向対話(TOD)システムのための対話型評価フレームワークを提案する。
まず,事前学習したモデルに基づいて目標指向のユーザシミュレータを構築し,ユーザシミュレータを用いて対話システムと対話して対話を生成する。
実験の結果,提案したユーザシミュレータによりトレーニングされたRLベースのTODシステムは,約98%のインフォメーションと成功率を達成することができた。
論文 参考訳(メタデータ) (2022-10-26T07:41:32Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with
Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。
具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。
その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-11-29T15:24:36Z) - CREDIT: Coarse-to-Fine Sequence Generation for Dialogue State Tracking [44.38388988238695]
対話状態トラッカーは、現在の対話状態のコンパクトな表現を正確に見つけることを目的としている。
我々はシーケンス生成問題として構造化状態表現とキャスト対話状態追跡を用いる。
我々のトラッカーは,MultiWOZ 2.0とMultiWOZ 2.1データセットの5つの領域で共同目標精度を向上することを示した。
論文 参考訳(メタデータ) (2020-09-22T10:27:18Z) - Is Your Goal-Oriented Dialog Model Performing Really Well? Empirical
Analysis of System-wise Evaluation [114.48767388174218]
本稿では,異なる設定の異なるモジュールから構成される異なるダイアログシステムについて,実験的検討を行った。
この結果から, 粗粒度ラベルで学習した連系や終端モデルを用いたシステムよりも, 細粒度監視信号を用いて訓練したパイプラインダイアログシステムの方が, 高い性能が得られることが示唆された。
論文 参考訳(メタデータ) (2020-05-15T05:20:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。