論文の概要: Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking
- arxiv url: http://arxiv.org/abs/2302.05932v1
- Date: Sun, 12 Feb 2023 15:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 17:50:10.147799
- Title: Stabilized In-Context Learning with Pre-trained Language Models for Few
Shot Dialogue State Tracking
- Title(参考訳): ショット対話状態追跡のための事前学習言語モデルによる文脈内安定化学習
- Authors: Derek Chen, Kun Qian, Zhou Yu
- Abstract要約: 大規模事前学習言語モデル(PLM)は、多くのNLPタスクにまたがる優れた性能を示している。
対話状態追跡(DST)のようなより複雑なタスクでは、望ましい意図を確実に伝達するプロンプトを設計するのは簡単ではない。
対話文の長さを制限するためのサリエンシモデルを導入し、クエリ毎に多くの例を含めることができます。
- 参考スコア(独自算出の注目度): 57.92608483099916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt-based methods with large pre-trained language models (PLMs) have shown
impressive unaided performance across many NLP tasks. These models improve even
further with the addition of a few labeled in-context exemplars to guide output
generation. However, for more complex tasks such as dialogue state tracking
(DST), designing prompts that reliably convey the desired intent is nontrivial,
leading to unstable results. Furthermore, building in-context exemplars for
dialogue tasks is difficult because conversational contexts are long while
model input lengths are relatively short. To overcome these issues we first
adapt a meta-learning scheme to the dialogue domain which stabilizes the
ability of the model to perform well under various prompts. We additionally
design a novel training method to improve upon vanilla retrieval mechanisms to
find ideal in-context examples. Finally, we introduce a saliency model to limit
dialogue text length, allowing us to include more exemplars per query. In
effect, we are able to achieve highly competitive results for few-shot DST on
MultiWOZ.
- Abstract(参考訳): 大規模事前学習型言語モデル(PLM)を用いたプロンプトベースの手法は,多くのNLPタスクにおいて顕著な性能を示した。
これらのモデルは、出力生成をガイドするためにいくつかのラベル付きインコンテキストの例を付加することでさらに改善される。
しかし、対話状態追跡(dst)のようなより複雑なタスクの場合、望ましい意図を確実に伝達するプロンプトの設計は非自明であり、不安定な結果をもたらす。
さらに,会話の文脈が長く,入力長が比較的短いため,対話タスクのコンテキスト内例を構築することは困難である。
これらの問題を克服するために,まず,対話領域にメタ学習方式を適用し,様々なプロンプトでモデルの性能を安定させる。
また,バニラ検索機構の改善のための新しいトレーニング手法を設計し,理想的なインコンテキストの例を見つける。
最後に,対話文の長さを制限し,クエリ毎により多くのexemplarsを含めるように,サリエンシーモデルを導入する。
事実上,MultiWOZ上でのDSTにおいて,非常に競争力のある結果が得られる。
関連論文リスト
- RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Diverse Retrieval-Augmented In-Context Learning for Dialogue State
Tracking [3.8073142980733]
RefPyDSTを提案する。これは対話状態追跡のための文脈内学習に3つの進歩をもたらした技術である。
まず、DSTをPythonプログラミングタスクとして定式化し、Pythonの変数参照として言語コア参照を明示的にモデル化する。
第2に、コンテキスト内学習は文脈の例に大きく依存するため、性能向上のための多様な事例を抽出する手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T03:15:52Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - A Study on Prompt-based Few-Shot Learning Methods for Belief State
Tracking in Task-oriented Dialog Systems [10.024834304960846]
タスク指向対話システムにおける対話的状態追跡問題に取り組む。
この問題に対する最近のアプローチでは、Transformerベースのモデルが大きな成果を上げている。
対話的信念状態追跡のためのプロンプトベース数ショット学習について検討する。
論文 参考訳(メタデータ) (2022-04-18T05:29:54Z) - In-Context Learning for Few-Shot Dialogue State Tracking [55.91832381893181]
In-context (IC) Learning framework for few-shot dialogue state tracking (DST)を提案する。
大規模な事前訓練言語モデル(LM)は、テストインスタンスといくつかの注釈付き例を入力として取り、パラメータの更新なしに直接対話状態をデコードする。
これにより、LMは、新しいドメインやシナリオに適応する際の、以前の数ショットのDST作業と比べて、より柔軟でスケーラブルになります。
論文 参考訳(メタデータ) (2022-03-16T11:58:24Z) - Representation Learning for Conversational Data using Discourse Mutual
Information Maximization [9.017156603976915]
構造を意識しない単語・バイ・ワード生成は効果的な会話モデリングには適さないと我々は主張する。
対話表現モデルの学習のための構造認識型相互情報に基づく損失関数DMIを提案する。
本モデルでは,対話評価タスクであるDailyDialog++において,ランダムな負のシナリオと逆のシナリオの両方において,最も有望な性能を示す。
論文 参考訳(メタデータ) (2021-12-04T13:17:07Z) - Response Generation with Context-Aware Prompt Learning [19.340498579331555]
本稿では,対話生成問題を素早い学習課題とする,事前学習型対話モデリングのための新しい手法を提案する。
限られた対話データを微調整する代わりに、我々のアプローチであるDialogPromptは、対話コンテキストに最適化された連続的なプロンプト埋め込みを学習する。
提案手法は,微調整ベースラインと汎用的なプロンプト学習法を著しく上回っている。
論文 参考訳(メタデータ) (2021-11-04T05:40:13Z) - RADDLE: An Evaluation Benchmark and Analysis Platform for Robust
Task-oriented Dialog Systems [75.87418236410296]
我々はraddleベンチマーク、コーパスのコレクション、および様々なドメインのモデルのパフォーマンスを評価するためのツールを紹介します。
RADDLEは強力な一般化能力を持つモデルを好んで奨励するように設計されている。
先行学習と微調整に基づく最近の最先端システムの評価を行い,異種ダイアログコーパスに基づく基礎的な事前学習が,ドメインごとの個別モデルをトレーニングするよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-29T08:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。