論文の概要: Understanding Shared Speech-Text Representations
- arxiv url: http://arxiv.org/abs/2304.14514v1
- Date: Thu, 27 Apr 2023 20:05:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 15:55:58.425977
- Title: Understanding Shared Speech-Text Representations
- Title(参考訳): 共有音声テキスト表現の理解
- Authors: Gary Wang, Kyle Kastner, Ankur Bapna, Zhehuai Chen, Andrew Rosenberg,
Bhuvana Ramabhadran, Yu Zhang
- Abstract要約: Mae-Stroは、エンドツーエンドモデルにテキストを組み込むことで、音声モデルを訓練するアプローチを開発した。
音声テキストアライメントのためのコーパス固有持続時間モデルが,共有音声テキスト表現を学習する上で最も重要な要素であることが判明した。
共有エンコーダは、ユニモーダルエンコーダよりもコンパクトで重なり合う音声テキスト表現を学習する。
- 参考スコア(独自算出の注目度): 34.45772613231558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, a number of approaches to train speech models by incorpo-rating
text into end-to-end models have been developed, with Mae-stro advancing
state-of-the-art automatic speech recognition (ASR)and Speech Translation (ST)
performance. In this paper, we expandour understanding of the resulting shared
speech-text representationswith two types of analyses. First we examine the
limits of speech-free domain adaptation, finding that a corpus-specific
duration modelfor speech-text alignment is the most important component for
learn-ing a shared speech-text representation. Second, we inspect the
sim-ilarities between activations of unimodal (speech or text) encodersas
compared to the activations of a shared encoder. We find that theshared encoder
learns a more compact and overlapping speech-textrepresentation than the
uni-modal encoders. We hypothesize that thispartially explains the
effectiveness of the Maestro shared speech-textrepresentations.
- Abstract(参考訳): 近年,asr(state-of-the-art automatic speech recognition)とst( speech translation)の性能向上により,テキストをエンドツーエンドモデルに組み込んだ音声モデルの訓練手法が数多く開発されている。
本稿では,結果の共有音声テキスト表現の理解を2種類の分析により拡張する。
まず, 発話自由領域適応の限界について検討し, 音声テキストアライメントのためのコーパス固有時間モデルが, 共有音声テキスト表現の学習において最も重要な要素であることを確認した。
第2に、共有エンコーダのアクティベーションと比較して、ユニモーダル(音声またはテキスト)エンコーダのアクティベーションのシミュレートを検査する。
共有エンコーダは、ユニモーダルエンコーダよりもコンパクトで重なり合う音声テキスト表現を学習する。
マエストロ共有音声表現の有効性を,この部分的に説明できると仮定する。
関連論文リスト
- DM-Codec: Distilling Multimodal Representations for Speech Tokenization [11.433520275513803]
DM-Codecは文脈情報を含む言語モデル誘導蒸留法である。
WERは13.46%まで低下し、WILは9.82%、音声品質は5.84%向上し、LibriSpeechベンチマークデータセットでは1.85%向上した。
論文 参考訳(メタデータ) (2024-10-19T07:14:14Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。