論文の概要: Hierarchical Knowledge Distillation for Dialogue Sequence Labeling
- arxiv url: http://arxiv.org/abs/2111.10957v1
- Date: Mon, 22 Nov 2021 02:45:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 14:11:39.190832
- Title: Hierarchical Knowledge Distillation for Dialogue Sequence Labeling
- Title(参考訳): 対話列ラベリングのための階層的知識蒸留
- Authors: Shota Orihashi, Yoshihiro Yamazaki, Naoki Makishima, Mana Ihori,
Akihiko Takashima, Tomohiro Tanaka, Ryo Masumura
- Abstract要約: 本稿では,対話シーケンスラベリングのための新しい知識蒸留法を提案する。
大規模かつ高性能な教師モデルの知識を蒸留することで、小さなモデルを訓練する。
対話行動推定と呼シーンセグメンテーションの実験により,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 26.91186784763019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel knowledge distillation method for dialogue
sequence labeling. Dialogue sequence labeling is a supervised learning task
that estimates labels for each utterance in the target dialogue document, and
is useful for many applications such as dialogue act estimation. Accurate
labeling is often realized by a hierarchically-structured large model
consisting of utterance-level and dialogue-level networks that capture the
contexts within an utterance and between utterances, respectively. However, due
to its large model size, such a model cannot be deployed on
resource-constrained devices. To overcome this difficulty, we focus on
knowledge distillation which trains a small model by distilling the knowledge
of a large and high performance teacher model. Our key idea is to distill the
knowledge while keeping the complex contexts captured by the teacher model. To
this end, the proposed method, hierarchical knowledge distillation, trains the
small model by distilling not only the probability distribution of the label
classification, but also the knowledge of utterance-level and dialogue-level
contexts trained in the teacher model by training the model to mimic the
teacher model's output in each level. Experiments on dialogue act estimation
and call scene segmentation demonstrate the effectiveness of the proposed
method.
- Abstract(参考訳): 本稿では,対話シーケンスラベリングのための新しい知識蒸留法を提案する。
対話シーケンスラベリングは、対象対話文書における各発話のラベルを推定する教師付き学習タスクであり、対話行為推定のような多くの応用に有用である。
正確なラベリングは、発話と発話間のコンテキストをそれぞれキャプチャする発話レベルと対話レベルのネットワークからなる階層構造の大きなモデルによって実現されることが多い。
しかし、モデルのサイズが大きいため、そのようなモデルはリソースに制約されたデバイスにデプロイできない。
この課題を克服するために,大規模かつ高性能な教員モデルの知識を蒸留することにより,小規模モデルを訓練する知識蒸留に焦点をあてる。
私たちのキーとなるアイデアは、教師モデルによって取得された複雑なコンテキストを維持しながら、知識を抽出することです。
この目的のために, 提案手法である階層的知識蒸留は, ラベル分類の確率分布だけでなく, 教師モデルで訓練された発話レベルと対話レベルの文脈の知識を, 教師モデルの出力を各レベルで模倣するように訓練することで, 小モデルを訓練する。
対話行動推定と呼シーンセグメンテーションの実験により,提案手法の有効性が示された。
関連論文リスト
- Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z) - Discovering Customer-Service Dialog System with Semi-Supervised Learning
and Coarse-to-Fine Intent Detection [6.869753194843482]
タスク指向ダイアログは,マルチターン会話による特定の目標達成を支援することを目的としている。
教師/学生のパラダイムに基づいた弱教師付きデータセットを構築した。
また,ユーザ意図を検出するために,モジュール型対話システムと粗粒度分類を統合した。
論文 参考訳(メタデータ) (2022-12-23T14:36:43Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - Can Visual Dialogue Models Do Scorekeeping? Exploring How Dialogue
Representations Incrementally Encode Shared Knowledge [17.285206913252786]
本稿では,VisDialデータセットで事前訓練されたモデルが,スコアスコアリングを適切に行うための表現を段階的に構築する理論に基づく評価手法を提案する。
我々の結論は、対話に沿った共有文とプライベートステートメントを区別する能力は、分析モデルには適度に存在しているが、必ずしも漸進的に一貫性があるとは限らないということである。
論文 参考訳(メタデータ) (2022-04-14T13:52:11Z) - DialogBERT: Discourse-Aware Response Generation via Learning to Recover
and Rank Utterances [18.199473005335093]
本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。
発話間の談話レベルのコヒーレンスを効果的に把握するために,マスク付き発話回帰を含む2つの訓練目標を提案する。
3つのマルチターン会話データセットの実験により、我々のアプローチがベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-03T09:06:23Z) - Improving Classification through Weak Supervision in Context-specific
Conversational Agent Development for Teacher Education [1.215785021723604]
教育シナリオ固有の会話エージェントを開発するのに必要な労力は、時間を要する。
アノテーションをモデリングするための従来のアプローチは、何千もの例をラベル付けし、アノテーション間の合意と多数決を計算することに依存してきた。
本稿では,これらの問題に対処するために,多タスク弱監視手法とアクティブラーニングを組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T23:39:40Z) - Dialogue Distillation: Open-Domain Dialogue Augmentation Using Unpaired
Data [61.71319905364992]
未ペアデータを利用したオープンドメイン対話モデルのトレーニングのための新しいデータ拡張手法を提案する。
データレベルの蒸留プロセスが最初に提案され、未確認データからポストとレスポンスの両方を検索する拡張ダイアログを構築する。
低品質の対話をフィルタリングするためにランキングモジュールが使用される。
モデルレベルの蒸留プロセスを用いて、高品質なペアデータに基づいて訓練された教師モデルを、強化された対話ペアに蒸留する。
論文 参考訳(メタデータ) (2020-09-20T13:06:38Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Low-Resource Knowledge-Grounded Dialogue Generation [74.09352261943913]
我々は、限られた訓練例しか利用できないという自然な仮定のもと、知識基底による対話生成を考察する。
生成モデル全体から知識基底の対話に依存するパラメータを分離するために,不整合応答デコーダを考案する。
1/8のトレーニングデータだけで、我々のモデルは最先端のパフォーマンスを達成でき、ドメイン外の知識をうまく一般化できる。
論文 参考訳(メタデータ) (2020-02-24T16:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。