論文の概要: Improving End-to-End Speech-to-Intent Classification with Reptile
- arxiv url: http://arxiv.org/abs/2008.01994v1
- Date: Wed, 5 Aug 2020 08:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 17:38:11.330577
- Title: Improving End-to-End Speech-to-Intent Classification with Reptile
- Title(参考訳): Reptile を用いたエンドツーエンド音声・インテント分類の改善
- Authors: Yusheng Tian, Philip John Gorinski
- Abstract要約: エンドツーエンドの音声言語理解システム(SLU)は従来のパイプラインシステムよりも多くの利点がある。
唯一の疑問は、限られた量のデータでエンドツーエンドのSLUをトレーニングする方法である。
非標準学習アルゴリズムReptileを用いて,SLUモデルの一般化性能を向上させることを提案する。
- 参考スコア(独自算出の注目度): 9.797488793708625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end spoken language understanding (SLU) systems have many advantages
over conventional pipeline systems, but collecting in-domain speech data to
train an end-to-end system is costly and time consuming. One question arises
from this: how to train an end-to-end SLU with limited amounts of data? Many
researchers have explored approaches that make use of other related data
resources, typically by pre-training parts of the model on high-resource speech
recognition. In this paper, we suggest improving the generalization performance
of SLU models with a non-standard learning algorithm, Reptile. Though Reptile
was originally proposed for model-agnostic meta learning, we argue that it can
also be used to directly learn a target task and result in better
generalization than conventional gradient descent. In this work, we employ
Reptile to the task of end-to-end spoken intent classification. Experiments on
four datasets of different languages and domains show improvement of intent
prediction accuracy, both when Reptile is used alone and used in addition to
pre-training.
- Abstract(参考訳): エンドツーエンド音声言語理解システム(SLU)は従来のパイプラインシステムよりも多くの利点があるが、エンドツーエンドシステムの訓練にはドメイン内の音声データを集めるのに時間と費用がかかる。
唯一の疑問は、限られた量のデータでエンドツーエンドのSLUをトレーニングする方法である。
多くの研究者は、他の関連するデータリソースを利用するアプローチを研究してきた。
本稿では,非標準学習アルゴリズムReptileによるSLUモデルの一般化性能の向上を提案する。
reptileはもともとモデルに依存しないメタ学習のために提案されたが、ターゲットタスクを直接学習し、従来の勾配降下よりもより良い一般化を実現するためにも使用できると論じている。
本研究では,エンドツーエンドの音声意図分類作業にReptileを用いた。
異なる言語とドメインの4つのデータセットに関する実験では、プリトレーニングに加えて、単発使用と使用の両方において、意図予測精度の向上が示されている。
関連論文リスト
- Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - End-to-End Spoken Language Understanding for Generalized Voice
Assistants [15.241812584273886]
商用音声アシスタント(VA)における一般化音声認識のためのE2Eモデル構築のためのアプローチを提案する。
本研究では,ASRレベルとNLUレベルの両方で事前学習が可能な,完全に微分可能なトランスフォーマーベースの階層システムを提案する。
これは転写と意味分類の両方の損失に基づいて微調整され、多種多様な意図と引数の組み合わせを扱う。
論文 参考訳(メタデータ) (2021-06-16T17:56:47Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z) - An Efficient Architecture for Predicting the Case of Characters using
Sequence Models [0.0]
クリーンなテキストデータのデジェストは、いくつかの自然言語処理アプリケーションにおいてボトルネックとして機能することが多い。
本稿では,一般にTruecasingと呼ばれる文字の正しいケースを復元することで,この問題を解決する。
提案アーキテクチャは、畳み込みニューラルネットワーク(CNN)、双方向長短期記憶ネットワーク(LSTM)、条件付きランダムフィールド(CRF)の組み合わせを用いている。
論文 参考訳(メタデータ) (2020-01-30T06:54:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。