論文の概要: Self-Supervised Representation Learning for Speech Using Visual
Grounding and Masked Language Modeling
- arxiv url: http://arxiv.org/abs/2202.03543v1
- Date: Mon, 7 Feb 2022 22:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-10 05:52:22.373515
- Title: Self-Supervised Representation Learning for Speech Using Visual
Grounding and Masked Language Modeling
- Title(参考訳): 視覚接地とマスキング言語モデルを用いた音声の自己教師あり表現学習
- Authors: Puyuan Peng and David Harwath
- Abstract要約: FaST-VGSはトランスフォーマーをベースとしたモデルで、生音声波形と意味論的関連画像の関連付けを学習する。
FaST-VGS+は、マスク付き言語モデリングの目的を持つマルチタスク方式で学習される。
我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
- 参考スコア(独自算出の注目度): 13.956691231452336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe our submissions to the ZeroSpeech 2021 Challenge
and SUPERB benchmark. Our submissions are based on the recently proposed
FaST-VGS model, which is a Transformer-based model that learns to associate raw
speech waveforms with semantically related images, all without the use of any
transcriptions of the speech. Additionally, we introduce a novel extension of
this model, FaST-VGS+, which is learned in a multi-task fashion with a masked
language modeling objective in addition to the visual grounding objective. On
ZeroSpeech 2021, we show that our models perform competitively on the ABX task,
outperform all other concurrent submissions on the Syntactic and Semantic
tasks, and nearly match the best system on the Lexical task. On the SUPERB
benchmark, we show that our models also achieve strong performance, in some
cases even outperforming the popular wav2vec2.0 model.
- Abstract(参考訳): 本稿では,ZeroSpeech 2021 Challenge and SUPERBベンチマークへの提案について述べる。
提案手法は,音声の文字起こしを使わずに生音声波形と意味的関連画像の関連付けを学習するトランスフォーマーモデルであるFaST-VGSモデルに基づく。
さらに,このモデルの新たな拡張であるFaST-VGS+を導入し,視覚的グラウンド化の目的に加えて,マスク付き言語モデリングの目的を持つマルチタスク方式で学習する。
ZeroSpeech 2021では、我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
superbベンチマークでは、我々のモデルは、人気のあるwav2vec2.0モデルよりも優れたパフォーマンスを実現しています。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Self-Supervised Models of Speech Infer Universal Articulatory Kinematics [44.27187669492598]
SSLモデルの基本特性として「調音キネマティクスの推論」を示す。
また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。
簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
論文 参考訳(メタデータ) (2023-10-16T19:50:01Z) - Expedited Training of Visual Conditioned Language Generation via
Redundancy Reduction [61.16125290912494]
$textEVL_textGen$は、視覚条件付き言語生成モデルの事前トレーニング用に設計されたフレームワークである。
提案手法は,視覚言語モデルの学習を5倍に加速させるが,全体的な性能に顕著な影響を与えないことを示す。
論文 参考訳(メタデータ) (2023-10-05T03:40:06Z) - The DiffuseStyleGesture+ entry to the GENEA Challenge 2023 [16.297790031478634]
DiffuseStyleGesture+は,非言語行動の生成と評価のためのソリューションである。
提案モデルであるDiffuseStyleGesture+は拡散モデルを利用してジェスチャーを自動的に生成する。
オーディオ、テキスト、スピーカーID、シードジェスチャなど、さまざまなモダリティが組み込まれている。
論文 参考訳(メタデータ) (2023-08-26T13:34:17Z) - StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion
and Adversarial Training with Large Speech Language Models [19.029030168939354]
StyleTTS 2は、大きな音声言語モデル(SLM)によるスタイル拡散と対角訓練を活用して、人間レベルのTS合成を実現するテキスト音声合成(TTS)モデルである。
StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。
この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
論文 参考訳(メタデータ) (2023-06-13T11:04:43Z) - Syllable Discovery and Cross-Lingual Generalization in a Visually
Grounded, Self-Supervised Speech Model [21.286529902957724]
自己教師型音声モデルの学習において, 音節単位を捉えた表現が出現することを示す。
我々のモデルは、訓練された言語(英語)上で、最先端のシラバス的セグメンテーション法よりも優れているだけでなく、ゼロショット方式でエストニア語に一般化していることを示す。
論文 参考訳(メタデータ) (2023-05-19T05:19:04Z) - The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。
我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。
結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文 参考訳(メタデータ) (2022-09-26T15:21:06Z) - Fast-Slow Transformer for Visually Grounding Speech [15.68151998164009]
本稿では,Fast-Slow Transformer for Visually Grounding Speech(FST-VGS)を提案する。
FaST-VGSは、生音声波形と視覚画像の関係を学習するためのトランスフォーマーベースのモデルである。
論文 参考訳(メタデータ) (2021-09-16T18:45:45Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。