論文の概要: Towards Automatic Evaluation of Task-Oriented Dialogue Flows
- arxiv url: http://arxiv.org/abs/2411.10416v1
- Date: Fri, 15 Nov 2024 18:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:39:24.734613
- Title: Towards Automatic Evaluation of Task-Oriented Dialogue Flows
- Title(参考訳): タスク指向対話フローの自動評価に向けて
- Authors: Mehrnoosh Mirtaheri, Nikhil Varghese, Chandra Khatri, Amol Kelkar,
- Abstract要約: 本稿では,対話フローの品質を評価するための新しい指標であるFuDGE(Fuzzy Dialogue-Graph Edit Distance)を紹介する。
FuDGEは、個々の会話がフローとどの程度うまく一致しているかを測定し、その結果、会話の集合がフロー全体によってどれだけうまく表現されるかを測定する。
FuDGEは対話フローの標準化と最適化により、対話設計者と自動化技術により、より高いレベルの効率と自動化を実現する。
- 参考スコア(独自算出の注目度): 5.146847146797646
- License:
- Abstract: Task-oriented dialogue systems rely on predefined conversation schemes (dialogue flows) often represented as directed acyclic graphs. These flows can be manually designed or automatically generated from previously recorded conversations. Due to variations in domain expertise or reliance on different sets of prior conversations, these dialogue flows can manifest in significantly different graph structures. Despite their importance, there is no standard method for evaluating the quality of dialogue flows. We introduce FuDGE (Fuzzy Dialogue-Graph Edit Distance), a novel metric that evaluates dialogue flows by assessing their structural complexity and representational coverage of the conversation data. FuDGE measures how well individual conversations align with a flow and, consequently, how well a set of conversations is represented by the flow overall. Through extensive experiments on manually configured flows and flows generated by automated techniques, we demonstrate the effectiveness of FuDGE and its evaluation framework. By standardizing and optimizing dialogue flows, FuDGE enables conversational designers and automated techniques to achieve higher levels of efficiency and automation.
- Abstract(参考訳): タスク指向対話システムは、しばしば有向非巡回グラフとして表される事前定義された会話スキーム(対話フロー)に依存している。
これらのフローは、以前に記録された会話から手動で設計または自動生成することができる。
ドメインの専門性の変化や、以前の会話の異なるセットに依存しているため、これらの対話フローはグラフ構造に大きく異なる可能性がある。
その重要性にもかかわらず、対話フローの品質を評価するための標準的な方法はない。
FuDGE(Fuzzy Dialogue-Graph Edit Distance)は,会話データの構造的複雑さと表現的カバレッジを評価することで,対話フローを評価する新しいメトリクスである。
FuDGEは、個々の会話がフローとどの程度うまく一致しているかを測定し、その結果、会話の集合がフロー全体によってどれだけうまく表現されるかを測定する。
手動で構成したフローとフローを自動で生成する実験を通じて,FuDGEとその評価フレームワークの有効性を実証する。
FuDGEは対話フローの標準化と最適化により、対話型デザイナと自動化技術により、より高いレベルの効率と自動化を実現する。
関連論文リスト
- Dialog2Flow: Pre-training Soft-Contrastive Action-Driven Sentence Embeddings for Automatic Dialog Flow Extraction [0.0]
本稿ではダイアログ2Flowの埋め込みについて紹介する。
D2F埋め込みをクラスタ化することで、潜在空間を量子化し、ダイアログを領域/アクションIDのシーケンスに変換することができる。
D2Fは様々な領域において質的および定量的に優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-24T07:10:18Z) - Unsupervised Extraction of Dialogue Policies from Conversations [3.102576158218633]
本稿では,データセットから対話ポリシーを抽出する上で,Large Language Modelがいかに有効かを示す。
そこで我々は,制御可能かつ解釈可能なグラフベースの手法を用いて対話ポリシーを生成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T14:57:25Z) - Unsupervised Flow Discovery from Task-oriented Dialogues [0.988655456942026]
本稿では,対話履歴からのフローの教師なし発見のためのアプローチを提案する。
パブリックTODデータセットであるMultiWOZから発見された流れの具体的な例を示す。
論文 参考訳(メタデータ) (2024-05-02T15:54:36Z) - TOD-Flow: Modeling the Structure of Task-Oriented Dialogues [77.15457469745364]
ダイアログを付加した対話データからTOD-Flowグラフを推定する手法を提案する。
推定されたTOD-Flowグラフは、任意の対話モデルと容易に統合することができ、予測性能、透明性、制御性を改善することができる。
論文 参考訳(メタデータ) (2023-12-07T20:06:23Z) - CTRLStruct: Dialogue Structure Learning for Open-Domain Response
Generation [38.60073402817218]
十分に構造化されたトピックフローは、バックグラウンド情報を活用し、将来のトピックを予測することで、制御可能で説明可能な応答を生成する。
本稿では,話題レベルの対話クラスタを効果的に探索する対話構造学習のための新しいフレームワークを提案する。
2つの人気のあるオープンドメイン対話データセットの実験は、優れた対話モデルと比較して、我々のモデルはより一貫性のある応答を生成できることを示している。
論文 参考訳(メタデータ) (2023-03-02T09:27:11Z) - Manual-Guided Dialogue for Flexible Conversational Agents [84.46598430403886]
対話データを効率的に構築し、利用する方法や、さまざまなドメインにモデルを大規模にデプロイする方法は、タスク指向の対話システムを構築する上で重要な問題である。
エージェントは対話とマニュアルの両方からタスクを学習する。
提案手法は,詳細なドメインオントロジーに対する対話モデルの依存性を低減し,様々なドメインへの適応をより柔軟にする。
論文 参考訳(メタデータ) (2022-08-16T08:21:12Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - Learning an Unreferenced Metric for Online Dialogue Evaluation [53.38078951628143]
本稿では,大規模な事前学習言語モデルを用いて発話の潜在表現を抽出する非参照自動評価指標を提案する。
提案手法は,オンライン環境でのアノテーションと高い相関性を実現すると同時に,推論時に比較に真の応答を必要としないことを示す。
論文 参考訳(メタデータ) (2020-05-01T20:01:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。