論文の概要: STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation
Learning
- arxiv url: http://arxiv.org/abs/2011.11387v1
- Date: Mon, 23 Nov 2020 13:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 02:03:12.621233
- Title: STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation
Learning
- Title(参考訳): STEPs-RL:音声表現学習のための音声テキストの絡み合わせ
- Authors: Prakamya Mishra
- Abstract要約: 本稿では、音声とテキストの絡み合いを利用して単語表現を学習する、新しいマルチモーダルディープニューラルネットワークアーキテクチャを提案する。
STEPs-RLは、対象の音声単語の音声シーケンスを予測するために教師付き方法で訓練される。
我々のモデルにより生成された潜在表現は、89.47%の精度でターゲット音素列を予測することができた。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a novel multi-modal deep neural network
architecture that uses speech and text entanglement for learning phonetically
sound spoken-word representations. STEPs-RL is trained in a supervised manner
to predict the phonetic sequence of a target spoken-word using its contextual
spoken word's speech and text, such that the model encodes its meaningful
latent representations. Unlike existing work, we have used text along with
speech for auditory representation learning to capture semantical and
syntactical information along with the acoustic and temporal information. The
latent representations produced by our model were not only able to predict the
target phonetic sequences with an accuracy of 89.47% but were also able to
achieve competitive results to textual word representation models, Word2Vec &
FastText (trained on textual transcripts), when evaluated on four widely used
word similarity benchmark datasets. In addition, investigation of the generated
vector space also demonstrated the capability of the proposed model to capture
the phonetic structure of the spoken-words. To the best of our knowledge, none
of the existing works use speech and text entanglement for learning spoken-word
representation, which makes this work first of its kind.
- Abstract(参考訳): 本稿では,音声とテキストの絡み合いを用いた音声音声表現の学習を行うマルチモーダル深層ニューラルネットワークアーキテクチャを提案する。
STEPs-RLは、その文脈的単語の音声とテキストを用いて、対象の音声単語の音声シーケンスを予測し、そのモデルが有意な潜在表現をエンコードするように教師付き方法で訓練される。
既存の研究と異なり、音声と共に音声を用いて聴覚表現学習を行い、意味的・統語的情報と時間的情報とを捉える。
このモデルにより得られた潜在表現は、89.47%の精度でターゲット音素列を予測できるだけでなく、4つの広く使われている単語類似性ベンチマークデータセットで評価すると、テキスト表現モデルであるWord2Vec & FastText(テキスト転写で訓練された)と競合する結果を得ることができた。
さらに, 生成したベクトル空間の探索により, 提案モデルが発声単語の音声構造を捉える能力を示した。
我々の知る限りでは、既存のどの作品も音声とテキストの絡み合わせを使って、話し言葉の表現を学習しているわけではない。
関連論文リスト
- Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Audio-to-Intent Using Acoustic-Textual Subword Representations from
End-to-End ASR [8.832255053182283]
本稿では,サブワードトークンに符号化された音声およびテキスト情報から直接ユーザの意図(デバイスに話しかけるか否かに関わらず)を予測する新しい手法を提案する。
提案手法は, 意図しないユーザ音声の93.3%を, 99%の正の確率で起動することで, 精度が高いことを示す。
論文 参考訳(メタデータ) (2022-10-21T17:45:00Z) - VCSE: Time-Domain Visual-Contextual Speaker Extraction Network [54.67547526785552]
本稿では,VCSEという2段階の時間領域視覚コンテキスト話者抽出ネットワークを提案する。
第1段階では、視覚的手がかりで対象音声を事前抽出し、基礎となる音声系列を推定する。
第2段階では、事前抽出されたターゲット音声を自己学習した文脈的手がかりで洗練する。
論文 参考訳(メタデータ) (2022-10-09T12:29:38Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings [19.195728241989702]
本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
論文 参考訳(メタデータ) (2022-09-14T13:33:04Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。