論文の概要: TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks
and Action-Tree Based Scheduled Sampling
- arxiv url: http://arxiv.org/abs/2401.15626v1
- Date: Sun, 28 Jan 2024 11:02:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 17:13:11.069903
- Title: TA&AT: Enhancing Task-Oriented Dialog with Turn-Level Auxiliary Tasks
and Action-Tree Based Scheduled Sampling
- Title(参考訳): TA&AT: ターンレベル補助タスクとアクショントレーベースのスケジューリングサンプリングによるタスク指向ダイアログの強化
- Authors: Longxiang Liu, Xiuxing Li, Yang Feng
- Abstract要約: タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。
エンコーダのターンレベルマルチタスク目的を提案する。
デコーダに対しては,アクションツリーに基づくスケジュールサンプリング手法を導入する。
- 参考スコア(独自算出の注目度): 16.77137239284608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented dialog systems have witnessed substantial progress due to
conversational pre-training techniques. Yet, two significant challenges
persist. First, most systems primarily utilize the latest turn's state label
for the generator. This practice overlooks the comprehensive value of state
labels in boosting the model's understanding for future generations. Second, an
overreliance on generated policy often leads to error accumulation, resulting
in suboptimal responses when adhering to incorrect actions. To combat these
challenges, we propose turn-level multi-task objectives for the encoder. With
the guidance of essential information from labeled intermediate states, we
establish a more robust representation for both understanding and generation.
For the decoder, we introduce an action tree-based scheduled sampling
technique. Specifically, we model the hierarchical policy as trees and utilize
the similarity between trees to sample negative policy based on scheduled
sampling, hoping the model to generate invariant responses under perturbations.
This method simulates potential pitfalls by sampling similar negative policy,
bridging the gap between task-oriented dialog training and inference. Among
methods without continual pre-training, our approach achieved state-of-the-art
(SOTA) performance on the MultiWOZ dataset series and was also competitive with
pre-trained SOTA methods.
- Abstract(参考訳): タスク指向対話システムは,対話型事前学習技術によって大きく進歩している。
しかし、2つの大きな課題が続いている。
まず、ほとんどのシステムはジェネレータに最新のターンの状態ラベルを使用する。
このプラクティスは、将来の世代に対するモデルの理解を高めるために、状態ラベルの包括的な価値を見落としている。
第二に、生成されたポリシーへの過度な依存は、しばしばエラーの蓄積を招き、誤ったアクションに固執する際の最適以下の応答をもたらす。
これらの課題に対処するために,エンコーダのターンレベルマルチタスク目標を提案する。
ラベル付き中間状態から必須情報を誘導することにより、理解と生成の両面でより堅牢な表現を確立する。
デコーダには,アクションツリーを用いたスケジュールサンプリング手法を導入する。
具体的には、階層的なポリシーを木としてモデル化し、木間の類似性を利用して、スケジュールされたサンプリングに基づいて負のポリシーをサンプリングする。
この方法は、類似の負のポリシーをサンプリングし、タスク指向の対話訓練と推論のギャップを埋めることで潜在的な落とし穴をシミュレートする。
継続事前学習のない手法の中で,本手法はMultiWOZデータセット上での最先端SOTA(State-of-the-art)性能を実現し,事前学習したSOTA手法と競合した。
関連論文リスト
- Hierarchical Orchestra of Policies [1.6574413179773757]
HOPは、現在の観察と、成功したタスクでこれまで遭遇した観察との類似度基準に基づいて、ポリシーの階層を動的に形成する。
HOPはタスクラベリングを必要としないため、タスク間のバウンダリがあいまいな環境でのロバストな適応を可能にする。
本実験は,複数のタスクにまたがってプロシージャ的に生成した環境下で実施し,HOPがタスク間の知識を維持する上で,ベースライン法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2024-11-05T11:13:09Z) - ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - An Effective-Efficient Approach for Dense Multi-Label Action Detection [23.100602876056165]
i)時間的依存関係と(ii)共起行動関係を同時に学習する必要がある。
近年のアプローチは階層型トランスフォーマーネットワークによるマルチスケール特徴抽出による時間情報のモデル化である。
我々はこれを階層設計における複数のサブサンプリングプロセスと組み合わせることで、位置情報のさらなる喪失につながると論じている。
論文 参考訳(メタデータ) (2024-06-10T11:33:34Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Rethinking Object Saliency Ranking: A Novel Whole-flow Processing
Paradigm [22.038715439842044]
本稿では、その「重要順」によって、有能な物体のランク付けに完全にフォーカスすることを目的とした、有能なランキングのための新しいパラダイムを提案する。
提案手法は、広く使われているSALICONの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-12-06T01:51:03Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - Let Offline RL Flow: Training Conservative Agents in the Latent Space of
Normalizing Flows [58.762959061522736]
オフライン強化学習は、追加の環境相互作用なしに、事前に記録された、固定されたデータセット上でポリシーをトレーニングすることを目的としている。
我々は、最近、潜在行動空間における学習ポリシーを基礎として、生成モデルの構築に正規化フローの特別な形式を用いる。
提案手法が最近提案したアルゴリズムより優れていることを示すため,様々な移動タスクとナビゲーションタスクについて評価を行った。
論文 参考訳(メタデータ) (2022-11-20T21:57:10Z) - Prompt Conditioned VAE: Enhancing Generative Replay for Lifelong
Learning in Task-Oriented Dialogue [80.05509768165135]
生成的再生法は、過去の知識と生成された擬似サンプルを統合するために広く用いられている。
既存の生成的再生法の多くは、モデルを制御するために単一のタスク固有のトークンのみを使用する。
本稿では,タスクの統計を取り入れて生成的再生を向上させるために,生涯学習のための新しい条件付きVAEを提案する。
論文 参考訳(メタデータ) (2022-10-14T13:12:14Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework
for Natural Language Generation [44.21363470798758]
ERNIE-GENは、シーケンス事前トレーニングと微調整のための拡張されたマルチフローシーケンスである。
学習と推論の相違を、補充生成機構とノイズ認識生成方式で橋渡しする。
単語単位で予測するのではなく、意味論的に完全であるスパンを連続的に予測するようにモデルを訓練する。
論文 参考訳(メタデータ) (2020-01-26T02:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。