論文の概要: Confusion2vec 2.0: Enriching Ambiguous Spoken Language Representations
with Subwords
- arxiv url: http://arxiv.org/abs/2102.02270v1
- Date: Wed, 3 Feb 2021 20:03:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 16:13:50.031293
- Title: Confusion2vec 2.0: Enriching Ambiguous Spoken Language Representations
with Subwords
- Title(参考訳): Confusion2vec 2.0: さまざまな言語表現をサブワードで強化
- Authors: Prashanth Gurunath Shivakumar, Panayiotis Georgiou, Shrikanth
Narayanan
- Abstract要約: Confusion2vecは、人間の音声言語に存在するあいまいさを符号化する単語ベクトル表現である。
このサブワードエンコーディングは,人間の音声言語における知覚的あいまいさの表現に有効であることを示す。
- 参考スコア(独自算出の注目度): 28.004852127707025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word vector representations enable machines to encode human language for
spoken language understanding and processing. Confusion2vec, motivated from
human speech production and perception, is a word vector representation which
encodes ambiguities present in human spoken language in addition to semantics
and syntactic information. Confusion2vec provides a robust spoken language
representation by considering inherent human language ambiguities. In this
paper, we propose a novel word vector space estimation by unsupervised learning
on lattices output by an automatic speech recognition (ASR) system. We encode
each word in confusion2vec vector space by its constituent subword character
n-grams. We show the subword encoding helps better represent the acoustic
perceptual ambiguities in human spoken language via information modeled on
lattice structured ASR output. The usefulness of the proposed Confusion2vec
representation is evaluated using semantic, syntactic and acoustic analogy and
word similarity tasks. We also show the benefits of subword modeling for
acoustic ambiguity representation on the task of spoken language intent
detection. The results significantly outperform existing word vector
representations when evaluated on erroneous ASR outputs. We demonstrate that
Confusion2vec subword modeling eliminates the need for retraining/adapting the
natural language understanding models on ASR transcripts.
- Abstract(参考訳): 単語ベクター表現は、機械が言語理解と処理のために人間の言語をエンコードすることを可能にする。
confusion2vecは、人間の音声生成と知覚から動機付けられた単語ベクトル表現であり、意味論と構文情報に加えて、人間の音声言語に存在するあいまいさを符号化する。
Confusion2vecは、人間固有の言語あいまいさを考慮し、堅牢な音声言語表現を提供する。
本稿では,自動音声認識(ASR)システムによって出力される格子の教師なし学習による新しい単語ベクトル空間推定を提案する。
我々は,各単語をそのサブワード文字n-gramで混同した2vecベクトル空間に符号化する。
格子構造ASR出力をモデルとした情報を用いて,音声言語の音響的知覚的あいまいさをよりよく表現するサブワード符号化法を示す。
The usefulness of the Confusion2vec representation is evaluate using semantic, syntactic and acoustic analogy and word similarity tasks。
また,音声言語意図検出タスクにおける音響曖昧性表現のためのサブワードモデリングの利点を示す。
その結果, 誤りasr出力で評価した場合, 既存の単語ベクトル表現を有意に上回った。
mess2vecサブワードモデリングにより,自然言語理解モデルの再学習/適応の必要性が排除された。
関連論文リスト
- Learning Semantic Information from Raw Audio Signal Using Both
Contextual and Phonetic Representations [18.251845041785906]
本稿では,2種類の表現を用いて生音声信号から意味を学習するフレームワークを提案する。
本稿では,時間分解能の異なる2種類の表現をキャプチャする音声対単位処理パイプラインを提案する。
言語モデルでは、両タイプの表現を組み込むためにデュアルチャネルアーキテクチャを採用する。
論文 参考訳(メタデータ) (2024-02-02T10:39:58Z) - Label Aware Speech Representation Learning For Language Identification [49.197215416945596]
本稿では,自己指導型表現学習と事前学習タスクのための言語ラベル情報を組み合わせた新しいフレームワークを提案する。
このフレームワークは、ラベル認識音声表現(LASR)学習と呼ばれ、三重項に基づく目的関数を使用して、言語ラベルと自己教師付き損失関数を組み込む。
論文 参考訳(メタデータ) (2023-06-07T12:14:16Z) - Bidirectional Representations for Low Resource Spoken Language
Understanding [39.208462511430554]
双方向リッチ符号化における音声符号化のための表現モデルを提案する。
このアプローチでは、表現を学習するために、マスク付き言語モデリングの目的を使用する。
得られたエンコーディングの性能は、複数のデータセットで比較できるモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-24T17:05:16Z) - Introducing Semantics into Speech Encoders [91.37001512418111]
本研究では,大言語モデルからの意味情報をラベル付き音声書き起こしのない自己教師付き音声エンコーダに組み込む教師なしの手法を提案する。
提案手法は,100時間以上のラベル付き音声書き起こしにおける教師あり手法と類似した性能を実現する。
論文 参考訳(メタデータ) (2022-11-15T18:44:28Z) - Audio-to-Intent Using Acoustic-Textual Subword Representations from
End-to-End ASR [8.832255053182283]
本稿では,サブワードトークンに符号化された音声およびテキスト情報から直接ユーザの意図(デバイスに話しかけるか否かに関わらず)を予測する新しい手法を提案する。
提案手法は, 意図しないユーザ音声の93.3%を, 99%の正の確率で起動することで, 精度が高いことを示す。
論文 参考訳(メタデータ) (2022-10-21T17:45:00Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - STEPs-RL: Speech-Text Entanglement for Phonetically Sound Representation
Learning [2.28438857884398]
本稿では、音声とテキストの絡み合いを利用して単語表現を学習する、新しいマルチモーダルディープニューラルネットワークアーキテクチャを提案する。
STEPs-RLは、対象の音声単語の音声シーケンスを予測するために教師付き方法で訓練される。
我々のモデルにより生成された潜在表現は、89.47%の精度でターゲット音素列を予測することができた。
論文 参考訳(メタデータ) (2020-11-23T13:29:16Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。