論文の概要: Towards Learning a Universal Non-Semantic Representation of Speech
- arxiv url: http://arxiv.org/abs/2002.12764v6
- Date: Thu, 6 Aug 2020 04:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 21:30:04.715480
- Title: Towards Learning a Universal Non-Semantic Representation of Speech
- Title(参考訳): 音声の普遍的非意味表現の学習に向けて
- Authors: Joel Shor, Aren Jansen, Ronnie Maor, Oran Lang, Omry Tuval, Felix de
Chaumont Quitry, Marco Tagliasacchi, Ira Shavitt, Dotan Emanuel, Yinnon Haviv
- Abstract要約: 本稿では,非意味的タスクにおける音声表現の比較のためのベンチマークを提案し,教師なし三重項空間の目的に基づく表現を提案する。
提案した表現は、ベンチマーク上の他の表現よりも優れており、多くの伝達学習タスクにおける最先端のパフォーマンスを超えている。
- 参考スコア(独自算出の注目度): 18.54874934311111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ultimate goal of transfer learning is to reduce labeled data requirements
by exploiting a pre-existing embedding model trained for different datasets or
tasks. The visual and language communities have established benchmarks to
compare embeddings, but the speech community has yet to do so. This paper
proposes a benchmark for comparing speech representations on non-semantic
tasks, and proposes a representation based on an unsupervised triplet-loss
objective. The proposed representation outperforms other representations on the
benchmark, and even exceeds state-of-the-art performance on a number of
transfer learning tasks. The embedding is trained on a publicly available
dataset, and it is tested on a variety of low-resource downstream tasks,
including personalization tasks and medical domain. The benchmark, models, and
evaluation code are publicly released.
- Abstract(参考訳): 転送学習の最終的な目標は、さまざまなデータセットやタスク用にトレーニングされた既存の埋め込みモデルを活用することで、ラベル付きデータ要件を削減することだ。
視覚と言語コミュニティは埋め込みを比較するベンチマークを確立したが、音声コミュニティはまだそうしていない。
本稿では,非意味的タスクにおける音声表現の比較ベンチマークを提案し,教師なし三重項損失に基づく表現を提案する。
提案する表現は、ベンチマークで他の表現よりも優れており、多くの転送学習タスクで最先端のパフォーマンスを超えている。
組み込みは公開データセットでトレーニングされ、パーソナライズタスクや医療ドメインなど、さまざまな低リソースのダウンストリームタスクでテストされる。
ベンチマーク、モデル、評価コードが公開されている。
関連論文リスト
- SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers [0.05857406612420462]
大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成する。
予測コヒーレンスの新しい尺度による評価システムを提案する。
論文 参考訳(メタデータ) (2021-09-10T15:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。