論文の概要: TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks
and Action-Tree Based Scheduled Sampling
- arxiv url: http://arxiv.org/abs/2401.15626v1
- Date: Sun, 28 Jan 2024 11:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:13:11.069903
- Title: TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks
and Action-Tree Based Scheduled Sampling
- Title(参考訳): TA&AT: ターンレベル補助タスクとアクショントレーベースのスケジューリングサンプリングによるタスク指向ダイアログの強化
- Authors: Longxiang Liu, Xiuxing Li, Yang Feng
- Abstract要約: タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。
エンコーダのターンレベルマルチタスク目的を提案する。
デコーダに対しては,アクションツリーに基づくスケジュールサンプリング手法を導入する。
- 参考スコア(独自算出の注目度): 16.77137239284608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented dialog systems have witnessed substantial progress due to
conversational pre-training techniques. Yet, two significant challenges
persist. First, most systems primarily utilize the latest turn's state label
for the generator. This practice overlooks the comprehensive value of state
labels in boosting the model's understanding for future generations. Second, an
overreliance on generated policy often leads to error accumulation, resulting
in suboptimal responses when adhering to incorrect actions. To combat these
challenges, we propose turn-level multi-task objectives for the encoder. With
the guidance of essential information from labeled intermediate states, we
establish a more robust representation for both understanding and generation.
For the decoder, we introduce an action tree-based scheduled sampling
technique. Specifically, we model the hierarchical policy as trees and utilize
the similarity between trees to sample negative policy based on scheduled
sampling, hoping the model to generate invariant responses under perturbations.
This method simulates potential pitfalls by sampling similar negative policy,
bridging the gap between task-oriented dialog training and inference. Among
methods without continual pre-training, our approach achieved state-of-the-art
(SOTA) performance on the MultiWOZ dataset series and was also competitive with
pre-trained SOTA methods.
- Abstract(参考訳): タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。
しかし、2つの大きな課題が続いている。
まず、ほとんどのシステムはジェネレータに最新のターンの状態ラベルを使用する。
このプラクティスは、将来の世代に対するモデルの理解を高めるために、状態ラベルの包括的な価値を見落としている。
第二に、生成されたポリシーへの過度な依存は、しばしばエラーの蓄積を招き、誤ったアクションに固執する際の最適以下の応答をもたらす。
これらの課題に対処するために,エンコーダのターンレベルマルチタスク目標を提案する。
ラベル付き中間状態から必須情報を誘導することにより、理解と生成の両面でより堅牢な表現を確立する。
デコーダには,アクションツリーを用いたスケジュールサンプリング手法を導入する。
具体的には、階層的なポリシーを木としてモデル化し、木間の類似性を利用して、スケジュールされたサンプリングに基づいて負のポリシーをサンプリングする。
この方法は、類似の負のポリシーをサンプリングし、タスク指向の対話訓練と推論のギャップを埋めることで潜在的な落とし穴をシミュレートする。
継続事前学習のない手法の中で,本手法はMultiWOZデータセット上での最先端SOTA(State-of-the-art)性能を実現し,事前学習したSOTA手法と競合した。
関連論文リスト
- Rethinking Object Saliency Ranking: A Novel Whole-flow Processing
Paradigm [22.038715439842044]
本稿では、その「重要順」によって、有能な物体のランク付けに完全にフォーカスすることを目的とした、有能なランキングのための新しいパラダイムを提案する。
提案手法は、広く使われているSALICONの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-06T01:51:03Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong
Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。
既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。
本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文 参考訳(メタデータ) (2022-10-14T13:12:14Z) - UBARv2: Towards Mitigating Exposure Bias in Task-Oriented Dialogs [28.051423938045843]
トレーニング中にダイアログコンテキストのサンプル生成内容にモデルを明示的に公開するセッションレベルサンプリングを提案する。
我々は,マスク戦略R-Maskを用いたドロップアウト型整合性正規化を用いて,モデルの堅牢性と性能をさらに向上する。
UBARv2は、標準化された評価ベンチマークMultiWOZ上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-15T12:14:46Z) - Pattern-aware Data Augmentation for Query Rewriting in Voice Assistant
Systems [10.332550622090718]
既存のトレーニングペアからパターンを学習し、ラベルの書き換えから書き換え候補を逆に生成し、不十分なQRトレーニングデータを補う拡張フレームワークを提案する。
実験の結果,QRベースラインを十分に訓練し,低リソース領域やローカライズ領域でのQR性能向上に有効である可能性が示された。
論文 参考訳(メタデータ) (2020-12-21T16:36:32Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z) - ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework
for Natural Language Generation [44.21363470798758]
ERNIE-GENは、シーケンス事前トレーニングと微調整のための拡張されたマルチフローシーケンスである。
学習と推論の相違を、補充生成機構とノイズ認識生成方式で橋渡しする。
単語単位で予測するのではなく、意味論的に完全であるスパンを連続的に予測するようにモデルを訓練する。
論文 参考訳(メタデータ) (2020-01-26T02:54:49Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。