論文の概要: Adapting Pretrained Transformer to Lattices for Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2011.00780v1
- Date: Mon, 2 Nov 2020 07:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 10:44:52.824700
- Title: Adapting Pretrained Transformer to Lattices for Spoken Language
Understanding
- Title(参考訳): 言語理解のための事前学習されたトランスフォーマーの格子への適応
- Authors: Chao-Wei Huang and Yun-Nung Chen
- Abstract要約: ASR(Automatic Speech Recognitionr)が生成した1-best結果とは対照的に格子の符号化により,音声言語理解(SLU)の性能が向上することが示されている。
本稿では,事前学習したトランスフォーマーを格子入力に適用し,音声言語に特化して理解タスクを実行することを目的とする。
- 参考スコア(独自算出の注目度): 39.50831917042577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lattices are compact representations that encode multiple hypotheses, such as
speech recognition results or different word segmentations. It is shown that
encoding lattices as opposed to 1-best results generated by automatic speech
recognizer (ASR) boosts the performance of spoken language understanding (SLU).
Recently, pretrained language models with the transformer architecture have
achieved the state-of-the-art results on natural language understanding, but
their ability of encoding lattices has not been explored. Therefore, this paper
aims at adapting pretrained transformers to lattice inputs in order to perform
understanding tasks specifically for spoken language. Our experiments on the
benchmark ATIS dataset show that fine-tuning pretrained transformers with
lattice inputs yields clear improvement over fine-tuning with 1-best results.
Further evaluation demonstrates the effectiveness of our methods under
different acoustic conditions. Our code is available at
https://github.com/MiuLab/Lattice-SLU
- Abstract(参考訳): 格子は、音声認識結果や異なる単語セグメンテーションなどの複数の仮説を符号化するコンパクトな表現である。
自動音声認識(ASR)によって生成された1-best結果とは対照的に,格子を符号化することで,音声言語理解(SLU)の性能が向上することを示す。
近年,トランスアーキテクチャを用いた事前学習型言語モデルにより,自然言語理解における最先端の成果が得られたが,格子を符号化する能力は検討されていない。
そこで本稿では,事前学習されたトランスフォーマーを格子入力に適用し,音声言語に特有な理解タスクを行う。
ATISデータセットのベンチマーク実験により,格子入力を持つ微調整済み変圧器の精度は1-bestの結果より向上した。
さらに, 異なる音響条件下での手法の有効性を示す。
私たちのコードはhttps://github.com/MiuLab/Lattice-SLUで公開されています。
関連論文リスト
- GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Syntax-guided Localized Self-attention by Constituency Syntactic
Distance [26.141356981833862]
本稿では,Transformerのための構文誘導型ローカライズ自己アテンションを提案する。
外部の選挙区から直接文法構造を組み込むことができる。
実験結果から,本モデルによる翻訳性能の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-10-21T06:37:25Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Speech-language Pre-training for End-to-end Spoken Language
Understanding [18.548949994603213]
本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-11T21:55:48Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Stacked DeBERT: All Attention in Incomplete Data for Text Classification [8.900866276512364]
変換器から双方向表現を重畳するスタックドデノナイズ(Stacked Denoising Bidirectional Representations)を提案する。
本モデルでは, 感情や意図の分類作業において, 音声テキスト誤りのあるツイートやテキストに現れる非公式/不正テキストにおいて, F1スコアが向上し, 堅牢性が向上したことを示す。
論文 参考訳(メタデータ) (2020-01-01T04:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。