論文の概要: Speech Sequence Embeddings using Nearest Neighbors Contrastive Learning
- arxiv url: http://arxiv.org/abs/2204.05148v1
- Date: Mon, 11 Apr 2022 14:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 21:07:18.304373
- Title: Speech Sequence Embeddings using Nearest Neighbors Contrastive Learning
- Title(参考訳): 隣接近傍のコントラスト学習を用いた音声系列埋め込み
- Authors: Algayres Robin, Adel Nabli, Benoit Sagot, Emmanuel Dupoux
- Abstract要約: 教師なしのコントラスト学習目標を用いてトレーニング可能な,シンプルなニューラルエンコーダアーキテクチャを提案する。
近年の自己教師型音声表現の上に構築されている場合,本手法は反復的に適用でき,競争力のあるSSEが得られることを示す。
- 参考スコア(独自算出の注目度): 11.5244570196293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a simple neural encoder architecture that can be trained using
an unsupervised contrastive learning objective which gets its positive samples
from data-augmented k-Nearest Neighbors search. We show that when built on top
of recent self-supervised audio representations, this method can be applied
iteratively and yield competitive SSE as evaluated on two tasks:
query-by-example of random sequences of speech, and spoken term discovery. On
both tasks our method pushes the state-of-the-art by a significant margin
across 5 different languages. Finally, we establish a benchmark on a
query-by-example task on the LibriSpeech dataset to monitor future improvements
in the field.
- Abstract(参考訳): 我々は、データ強化k-Nearest Neighbors探索から正のサンプルを得る、教師なしのコントラスト学習目標を用いて、訓練可能な単純なニューラルエンコーダアーキテクチャを導入する。
最近の自己教師付き音声表現の上に構築された場合、この手法は反復的に適用でき、2つのタスク(音声のランダムシーケンスのクエリバイサンプル、音声項発見)で評価される競合sseが得られる。
両方のタスクにおいて、我々の手法は5つの異なる言語にまたがって最先端の言語を押し付けます。
最後に、librispeechデータセットのクエリバイサンプルタスクのベンチマークを確立し、フィールドの将来的な改善を監視する。
関連論文リスト
- On the Noise Robustness of In-Context Learning for Text Generation [41.59602454113563]
本研究では、テキスト生成タスクにおいて、ノイズの多いアノテーションがテキスト内学習の性能を著しく損なうことを示す。
この問題を回避するために,LPR(Local Perplexity Ranking)と呼ばれるシンプルで効果的なアプローチを提案する。
LPRは「騒々しい」候補者を、より清潔である可能性が高い隣人に置き換える。
論文 参考訳(メタデータ) (2024-05-27T15:22:58Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Learning Decoupled Retrieval Representation for Nearest Neighbour Neural
Machine Translation [16.558519886325623]
kNN-MTは、テスト時に単語レベルの表現を取得することで、外部コーパスをうまく組み込む。
本稿では,これら2つのタスクの表現の結合が,きめ細かな検索に準最適であることを強調する。
教師付きコントラスト学習を利用して、元の文脈表現から派生した特徴的表現を学習する。
論文 参考訳(メタデータ) (2022-09-19T03:19:38Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation
on Natural Speech [44.68649535280397]
音声言語理解評価(SLUE)のための一連のベンチマークタスクを提案する。
SLUEは限定的なラベル付きトレーニングセットとそれに対応する評価セットで構成されている。
本稿では,SLUEベンチマークスイートの第1フェーズについて述べる。
本稿では,VoxCelebデータセットとVoxPopuliデータセットのサブセットに対する新たな書き起こしとアノテーション,ベースラインモデルの評価指標と結果,ベースラインを再現し,新しいモデルを評価するためのオープンソースツールキットを提供する。
論文 参考訳(メタデータ) (2021-11-19T18:59:23Z) - RETRONLU: Retrieval Augmented Task-Oriented Semantic Parsing [11.157958012672202]
マルチドメインタスク指向のセマンティックパーシングの問題に対して,検索に基づくモデリングのアイデアを適用している。
我々のアプローチであるRetroNLUは、シーケンス・ツー・シーケンス・モデルアーキテクチャを検索コンポーネントで拡張する。
近隣の検索コンポーネントの品質、モデルの感度を分析し、発話の複雑さの異なる意味解析の性能を分解する。
論文 参考訳(メタデータ) (2021-09-21T19:30:30Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Rethinking End-to-End Evaluation of Decomposable Tasks: A Case Study on
Spoken Language Understanding [101.24748444126982]
分解可能なタスクは複雑で、サブタスクの階層から構成される。
しかし、既存のベンチマークでは、通常は表面レベルのサブタスクのみの例が示される。
サブタスク固有のユーティリティ関数上の座標アセントを用いて、ロバストなテストセットを構築するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-29T02:53:59Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。