論文の概要: On the Use of External Data for Spoken Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2112.07648v1
- Date: Tue, 14 Dec 2021 18:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:20:25.833445
- Title: On the Use of External Data for Spoken Named Entity Recognition
- Title(参考訳): 音声名付きエンティティ認識における外部データの利用について
- Authors: Ankita Pasad, Felix Wu, Suwon Shon, Karen Livescu, Kyu J. Han
- Abstract要約: 近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
- 参考スコア(独自算出の注目度): 40.93448412171246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) tasks involve mapping from speech audio
signals to semantic labels. Given the complexity of such tasks, good
performance might be expected to require large labeled datasets, which are
difficult to collect for each new task and domain. However, recent advances in
self-supervised speech representations have made it feasible to consider
learning SLU models with limited labeled data. In this work we focus on
low-resource spoken named entity recognition (NER) and address the question:
Beyond self-supervised pre-training, how can we use external speech and/or text
data that are not annotated for the task? We draw on a variety of approaches,
including self-training, knowledge distillation, and transfer learning, and
consider their applicability to both end-to-end models and pipeline (speech
recognition followed by text NER model) approaches. We find that several of
these approaches improve performance in resource-constrained settings beyond
the benefits from pre-trained representations alone. Compared to prior work, we
find improved F1 scores of up to 16%. While the best baseline model is a
pipeline approach, the best performance when using external data is ultimately
achieved by an end-to-end model. We provide detailed comparisons and analyses,
showing for example that end-to-end models are able to focus on the more
NER-specific words.
- Abstract(参考訳): 音声言語理解(slu)タスクは、音声信号から意味ラベルへのマッピングを含む。
このようなタスクの複雑さを考えると、優れたパフォーマンスには大きなラベル付きデータセットが必要であり、新しいタスクとドメインごとに収集するのが困難である。
しかし、近年の自己教師型音声表現の進歩により、ラベル付きデータによるSLUモデルの学習が可能になった。
自己教師型事前学習以外にも、タスクにアノテートされていない外部の音声やテキストデータをどのように使うことができますか?
我々は, 自己学習, 知識蒸留, 伝達学習など, 様々なアプローチを踏襲し, エンドツーエンドモデルとパイプライン(音声認識とテキストNERモデル)の両方に適用性を検討する。
これらの手法のいくつかは、事前訓練された表現のみの利点を超えて、リソース制約された設定におけるパフォーマンスを改善する。
以前の作業と比較すると、F1のスコアは最大16%向上しました。
最高のベースラインモデルはパイプラインアプローチであるが、外部データを使用する際の最高のパフォーマンスは、最終的にエンドツーエンドモデルによって達成される。
より詳細な比較と分析を行い、例えば、エンドツーエンドモデルはよりNER固有の単語に集中できることを示す。
関連論文リスト
- Synergizing Unsupervised and Supervised Learning: A Hybrid Approach for Accurate Natural Language Task Modeling [0.0]
本稿では,NLPタスクモデリングの精度を向上させるために,教師なし学習と教師なし学習を相乗化する新しいハイブリッド手法を提案する。
提案手法は,未ラベルコーパスから表現を学習する教師なしモジュールと,これらの表現を活用してタスク固有モデルを強化する教師付きモジュールを統合する。
手法の相乗化により、我々のハイブリッドアプローチはベンチマークデータセット上でSOTAの結果を達成し、よりデータ効率が高くロバストなNLPシステムを実現する。
論文 参考訳(メタデータ) (2024-06-03T08:31:35Z) - Vocabulary-Defined Semantics: Latent Space Clustering for Improving In-Context Learning [32.178931149612644]
コンテキスト内学習により、言語モデルは下流のデータに適応したり、プロンプト内のデモとして少数のサンプルでタスクを組み込むことができる。
しかし、文脈内学習のパフォーマンスは、実演の質、形式、順序によって不安定である可能性がある。
語彙定義意味論(vocabulary-defined semantics)を提案する。
論文 参考訳(メタデータ) (2024-01-29T14:29:48Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - A Data Efficient End-To-End Spoken Language Understanding Architecture [22.823732899634518]
我々は、事前訓練された外部モジュールを追加せずに、エンドツーエンドで訓練されたデータ効率システムを導入する。
提案モデルでは,小規模なトレーニングデータセットを用いて,最先端技術に対して,適切なサイズと競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-02-14T10:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。