論文の概要: Is one brick enough to break the wall of spoken dialogue state tracking?
- arxiv url: http://arxiv.org/abs/2311.04923v1
- Date: Fri, 3 Nov 2023 08:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:20:56.710691
- Title: Is one brick enough to break the wall of spoken dialogue state tracking?
- Title(参考訳): 音声対話の状態を追跡する壁を壊すのに十分か?
- Authors: Lucas Druart (LIA), Valentin Vielzeuf, Yannick Est\`eve (LIA)
- Abstract要約: タスク指向対話(TOD)システムでは、システムのユーザニーズに対する理解を正しく更新することが、スムーズな対話の鍵となる。
本稿では,(1)芸術カスケードアプローチの状況,(2)ルールに基づく文脈化による局所的E2Eアプローチ,(3)完全に神経アプローチの3つのアプローチを比較した。
- 参考スコア(独自算出の注目度): 0.6537685198688538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Task-Oriented Dialogue (TOD) systems, correctly updating the system's
understanding of the user's needs (a.k.a dialogue state tracking) is key to a
smooth interaction. Traditionally, TOD systems perform this update in three
steps: transcription of the user's utterance, semantic extraction of the key
concepts, and contextualization with the previously identified concepts. Such
cascade approaches suffer from cascading errors and separate optimization.
End-to-End approaches have been proved helpful up to the semantic extraction
step. This paper goes one step further paving the path towards completely
neural spoken dialogue state tracking by comparing three approaches: (1) a
state of the art cascade approach, (2) a locally E2E approach with rule-based
contextualization and (3) a completely neural approach. Our study highlights
that although they all outperform the recent DSTC11 best model, especially with
a filtering post-processing step, (1) remains the most accurate approach.
Indeed, both (2) and (3) have trouble propagating context as dialogues unfold
showing that context propagation in completely neural approaches is an open
challenge.
- Abstract(参考訳): Task-Oriented Dialogue (TOD)システムでは、システムのユーザニーズに対する理解(例えば対話状態追跡)を正しく更新することがスムーズな対話の鍵となる。
伝統的に、TODシステムは、ユーザの発話の書き起こし、キーコンセプトのセマンティック抽出、以前に特定された概念によるコンテキスト化という3つのステップでこの更新を実行する。
このようなカスケードアプローチは、カスケードエラーと別々の最適化に苦しむ。
エンド・ツー・エンドのアプローチは意味抽出の段階まで有効であることが証明されている。
本稿では,(1)アートカスケードアプローチ,(2)ルールに基づく文脈化による局所的E2Eアプローチ,(3)完全にニューラルアプローチの3つのアプローチを比較して,完全な音声対話状態追跡への道筋を一歩進める。
本研究は,最近のDSTC11ベストモデル,特にフィルタリング後処理ステップよりも優れているが,(1)最も正確なアプローチであることを示す。
実際、(2)と(3)は、完全に神経的なアプローチにおける文脈の伝播がオープンな課題であることを示す対話として、文脈の伝播に問題を抱えている。
関連論文リスト
- SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking [89.43370214059955]
Open-vocabulary Multiple Object Tracking (MOT)は、トレーニングセットにはない新しいカテゴリにトラッカーを一般化することを目的としている。
我々は,連合の初期段階において,意味論,位置,出現の先行を共同で検討する統一的な枠組みを提案する。
提案手法は,異なるキューを融合するための複雑な後処理を排除し,大規模オープン語彙追跡のための関連性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:36:58Z) - Chain of Thought Explanation for Dialogue State Tracking [52.015771676340016]
対話状態追跡(DST)は、会話中のユーザクエリと目標を記録することを目的としている。
DSTタスクに対してChain-of-Thought-Explanation(CoTE)というモデルを提案する。
CoTEはスロット値を決定した後、ステップバイステップで詳細な説明を作成するように設計されている。
論文 参考訳(メタデータ) (2024-03-07T16:59:55Z) - Semantic Parsing by Large Language Models for Intricate Updating
Strategies of Zero-Shot Dialogue State Tracking [25.286077416235784]
Zero-shot Dialogue State Tracking (DST)は、タスク指向対話の取得と注釈付けの課題に対処する。
我々は、ゼロショットDSTに複雑な更新戦略を導入するために、新しいインコンテキスト学習(ICL)手法であるParsingDSTを提案する。
提案手法は,強力なLarge Language Models(LLM)を活用してDSTタスクを再構築し,元の対話文を意味解析に翻訳する。
論文 参考訳(メタデータ) (2023-10-16T15:38:02Z) - OLISIA: a Cascade System for Spoken Dialogue State Tracking [1.6655682083533425]
OLISIAは、自動音声認識(ASR)モデルと対話状態追跡(DST)モデルを統合するカスケードシステムである。
ASRおよびDSTモジュールにいくつかの適応を導入し、音声会話の統合性や堅牢性を向上させる。
ASR出力の正規化とデータ拡張によるDST入力の適応と、事前学習したモデルサイズの増加は、すべて、文字と音声の会話における性能の相違を低減する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2023-04-20T09:30:50Z) - Dialogue State Distillation Network with Inter-Slot Contrastive Learning
for Dialogue State Tracking [25.722458066685046]
対話状態追跡(DST)は,対話履歴からユーザの意図を抽出することを目的としている。
現在、既存のほとんどのアプローチはエラーの伝播に悩まされており、関連する情報を動的に選択することはできない。
本稿では,従来の対話状態の関連情報を活用するために,対話状態蒸留ネットワーク(DSDN)を提案する。
論文 参考訳(メタデータ) (2023-02-16T11:05:24Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - OPAL: Ontology-Aware Pretrained Language Model for End-to-End
Task-Oriented Dialogue [40.62090743056549]
本稿では、エンドツーエンドタスク指向対話(TOD)のためのオントロジー対応事前学習言語モデル(OPAL)を提案する。
チャット型対話モデルとは異なり、タスク指向対話モデルは少なくとも2つのタスク固有モジュールを満たす:対話状態トラッカー(DST)と応答生成器(RG)。
論文 参考訳(メタデータ) (2022-09-10T04:38:27Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - MinTL: Minimalist Transfer Learning for Task-Oriented Dialogue Systems [75.43457658815943]
タスク指向対話システムのシステム設計プロセスを簡単にするミニマリスト変換学習(MinTL)を提案する。
MinTLはシンプルだが効果的な転送学習フレームワークであり、事前訓練されたSeq2seqモデルのプラグインと再生を可能にする。
トレーニング済みの2つのバックボーン(T5とBART)で学習フレームワークをインスタンス化し、MultiWOZで評価する。
論文 参考訳(メタデータ) (2020-09-25T02:19:13Z) - CREDIT: Coarse-to-Fine Sequence Generation for Dialogue State Tracking [44.38388988238695]
対話状態トラッカーは、現在の対話状態のコンパクトな表現を正確に見つけることを目的としている。
我々はシーケンス生成問題として構造化状態表現とキャスト対話状態追跡を用いる。
我々のトラッカーは,MultiWOZ 2.0とMultiWOZ 2.1データセットの5つの領域で共同目標精度を向上することを示した。
論文 参考訳(メタデータ) (2020-09-22T10:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。