論文の概要: What all do audio transformer models hear? Probing Acoustic
Representations for Language Delivery and its Structure
- arxiv url: http://arxiv.org/abs/2101.00387v1
- Date: Sat, 2 Jan 2021 06:29:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 07:20:59.772093
- Title: What all do audio transformer models hear? Probing Acoustic
Representations for Language Delivery and its Structure
- Title(参考訳): オーディオトランスフォーマーモデルは何が聞こえますか?
言語伝達のための音響表現の探索とその構造
- Authors: Jui Shah, Yaman Kumar Singla, Changyou Chen, Rajiv Ratn Shah
- Abstract要約: オーディオトランスフォーマーモデル mockingjay と wave2vec2.0 を比較した。
音声モデルのテキスト表面、構文、および意味的特徴に対する理解を調査します。
ネイティブ、非ネイティブ、合成、読み取り、自発的な音声データセットの完全な設定でこれを行います。
- 参考スコア(独自算出の注目度): 64.54208910952651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, BERT based transformer models have become an inseparable
part of the 'tech stack' of text processing models. Similar progress is being
observed in the speech domain with a multitude of models observing
state-of-the-art results by using audio transformer models to encode speech.
This begs the question of what are these audio transformer models learning.
Moreover, although the standard methodology is to choose the last layer
embedding for any downstream task, but is it the optimal choice? We try to
answer these questions for the two recent audio transformer models, Mockingjay
and wave2vec2.0. We compare them on a comprehensive set of language delivery
and structure features including audio, fluency and pronunciation features.
Additionally, we probe the audio models' understanding of textual surface,
syntax, and semantic features and compare them to BERT. We do this over
exhaustive settings for native, non-native, synthetic, read and spontaneous
speech datasets
- Abstract(参考訳): 近年、BERTベースのトランスモデルは、テキスト処理モデルの「技術スタック」の分離不能な部分となっている。
音声トランスフォーマモデルを用いて音声を符号化することにより, 音声領域における類似の進展が観測されている。
これは、これらのオーディオトランスフォーマーモデルが学習しているものについて疑問を呈する。
さらに、標準の方法論は、ダウンストリームタスクに埋め込む最後のレイヤを選択することですが、それは最適な選択でしょうか?
我々は、最近の2つのオーディオトランスフォーマーモデル、MockingjayとWave2vec2.0に対するこれらの質問に答えようとしている。
音声, 流音, 発音機能など, 言語提供機能と構造機能を総合的に比較した。
さらに,音声モデルのテキスト面,構文,意味的特徴に対する理解を探索し,BERTと比較する。
ネイティブ、非ネイティブ、合成、読み取り、自発的な音声データセットの完全な設定でこれを実行します。
関連論文リスト
- Generative Pre-trained Speech Language Model with Efficient Hierarchical Transformer [39.31849739010572]
textbfGenerative textbfPre-trained textbfSpeech textbfTransformer (GPST)を紹介する。
GPSTは、音声波形を2種類の独立した音声表現に量子化し、階層的なトランスフォーマーアーキテクチャに統合する。
短時間の3秒のプロンプトによって、GPSTは自然で一貫性のあるパーソナライズされた音声を生成し、コンテキスト内学習能力を示す。
論文 参考訳(メタデータ) (2024-06-03T04:16:30Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - VoiceCraft: Zero-Shot Speech Editing and Text-to-Speech in the Wild [42.788845796159045]
本稿では,音声編集とゼロショット音声タスクの両方で最先端のパフォーマンスを実現する,トークンを埋め込んだニューラルネットワークモデルであるVoiceCraftを紹介する。
音声編集タスクでは、ボイスクラフトは自然性の観点から未編集の録音とほとんど区別できない編集された音声を生成する。
ゼロショットTSでは、VALLEや一般的な商用モデルであるXTTS-v2など、従来のSotAモデルよりも優れています。
論文 参考訳(メタデータ) (2024-03-25T17:38:32Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - AV-TranSpeech: Audio-Visual Robust Speech-to-Speech Translation [55.1650189699753]
音声から音声への直接翻訳(S2ST)は、ある言語から別の言語への変換を目的としており、現在までに顕著な進歩を見せている。
現在のS2STモデルは相変わらずノイズの多い環境での劣化に悩まされ、視覚音声の翻訳に失敗している。
AV-TranSpeechは、中間テキストに依存しない最初の音声-視覚音声-音声合成モデルである。
論文 参考訳(メタデータ) (2023-05-24T17:59:03Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。