論文の概要: Speech SIMCLR: Combining Contrastive and Reconstruction Objective for
Self-supervised Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2010.13991v2
- Date: Mon, 5 Jul 2021 03:13:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:58:24.472537
- Title: Speech SIMCLR: Combining Contrastive and Reconstruction Objective for
Self-supervised Speech Representation Learning
- Title(参考訳): 音声SIMCLR:自己教師型音声表現学習のためのコントラストと再構成目的の組み合わせ
- Authors: Dongwei Jiang, Wubo Li, Miao Cao, Wei Zou, Xiangang Li
- Abstract要約: 音声シムCLRは、音声表現学習のための新しい自己教師型目標である。
トレーニング中、SimCLRは生の音声とそのスペクトログラムに拡張を適用した。
- 参考スコア(独自算出の注目度): 20.39971017940006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised visual pretraining has shown significant progress recently.
Among those methods, SimCLR greatly advanced the state of the art in
self-supervised and semi-supervised learning on ImageNet. The input feature
representations for speech and visual tasks are both continuous, so it is
natural to consider applying similar objective on speech representation
learning. In this paper, we propose Speech SimCLR, a new self-supervised
objective for speech representation learning. During training, Speech SimCLR
applies augmentation on raw speech and its spectrogram. Its objective is the
combination of contrastive loss that maximizes agreement between differently
augmented samples in the latent space and reconstruction loss of input
representation. The proposed method achieved competitive results on speech
emotion recognition and speech recognition.
- Abstract(参考訳): 自己監督型視覚前訓練は近年大きな進歩を見せている。
これらの手法のうち、simclrはimagenet上での自己教師ありおよび半教師あり学習における芸術の状態を大いに進歩させた。
音声と視覚タスクの入力特徴表現は連続的であるため、同じ目的を音声表現学習に適用することを考えるのは自然である。
本稿では,音声表現学習のための新しい自己教師付き目標である speech simclr を提案する。
訓練中、Speech SimCLRは生音声とそのスペクトログラムに拡張を適用する。
その目的は、潜在空間における異なる拡張サンプルと入力表現の再構成損失との一致を最大化する対照的な損失の組合せである。
提案手法は,音声感情認識と音声認識において競合する結果を得た。
関連論文リスト
- Speech2rtMRI: Speech-Guided Diffusion Model for Real-time MRI Video of the Vocal Tract during Speech [29.510756530126837]
音声中の人間の声道のMRIビデオにおいて,音声を視覚的に表現するデータ駆動方式を提案する。
先行知識に埋め込まれた大規模な事前学習音声モデルを用いて、視覚領域を一般化し、見当たらないデータを生成する。
論文 参考訳(メタデータ) (2024-09-23T20:19:24Z) - Separate in the Speech Chain: Cross-Modal Conditional Audio-Visual Target Speech Extraction [13.5641621193917]
音声・視覚的対象音声抽出タスクでは、音声モダリティが支配的になりがちであり、視覚誘導の重要性を覆す可能性がある。
提案手法は,音声・視覚的対象音声抽出タスクを,音声知覚と音声生成の2段階に分割する。
生成した音声によって伝達される意味情報が、唇の動きによって伝達される意味情報と一致することを保証するために、対照的な意味マッチング損失を導入する。
論文 参考訳(メタデータ) (2024-04-19T09:08:44Z) - CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using
Cochlear Cepstrum-based Masking for Speech Emotion Recognition [5.974778743092437]
CochCeps-Augmentは、音声表現の自己教師付きコントラスト学習のための、バイオインスパイアされたマスキング強化タスクである。
以上の結果から,CochCeps-Augmentが音声感情認識解析の標準ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2024-02-10T11:13:13Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - General-Purpose Speech Representation Learning through a Self-Supervised
Multi-Granularity Framework [114.63823178097402]
本稿では,汎用音声表現学習のための自己教師型学習フレームワーク MGF を提案する。
具体的には、生成学習手法を用いて、小さな時間スケールできめ細かい情報を捕捉し、識別学習手法を用いて、粗い情報や意味情報を大規模に蒸留することを提案する。
論文 参考訳(メタデータ) (2021-02-03T08:13:21Z) - Does Visual Self-Supervision Improve Learning of Speech Representations
for Emotion Recognition? [63.564385139097624]
本研究は,音声表現の学習を指導するために,顔再構成による視覚的自己監督について検討する。
提案した視覚的・音声的自己監督のマルチタスクの組み合わせは,よりリッチな特徴を学習する上で有益であることを示す。
学習した音声表現を、離散的感情認識、連続的感情認識、自動音声認識のために評価する。
論文 参考訳(メタデータ) (2020-05-04T11:33:40Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。