論文の概要: Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings
- arxiv url: http://arxiv.org/abs/2209.06633v1
- Date: Wed, 14 Sep 2022 13:33:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:37:48.294518
- Title: Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic
Word Embeddings
- Title(参考訳): 形式と意味の統合:音響単語埋め込みのためのマルチタスク学習モデル
- Authors: Badr M. Abdullah, Bernd M\"obius, Dietrich Klakow
- Abstract要約: 本稿では,トップダウン語彙知識を音響単語埋め込みの訓練手順に組み込んだマルチタスク学習モデルを提案する。
我々は3つの言語で実験を行い、語彙知識を取り入れることで、埋め込み空間の識別性が向上することを示した。
- 参考スコア(独自算出の注目度): 19.195728241989702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models of acoustic word embeddings (AWEs) learn to map variable-length spoken
word segments onto fixed-dimensionality vector representations such that
different acoustic exemplars of the same word are projected nearby in the
embedding space. In addition to their speech technology applications, AWE
models have been shown to predict human performance on a variety of auditory
lexical processing tasks. Current AWE models are based on neural networks and
trained in a bottom-up approach that integrates acoustic cues to build up a
word representation given an acoustic or symbolic supervision signal.
Therefore, these models do not leverage or capture high-level lexical knowledge
during the learning process. % and capture low-level information about word
forms. In this paper, we propose a multi-task learning model that incorporates
top-down lexical knowledge into the training procedure of AWEs. Our model
learns a mapping between the acoustic input and a lexical representation that
encodes high-level information such as word semantics in addition to bottom-up
form-based supervision. We experiment with three languages and demonstrate that
incorporating lexical knowledge improves the embedding space discriminability
and encourages the model to better separate lexical categories.
- Abstract(参考訳): 音響単語埋め込みモデル(AWEs)は、可変長の音声単語セグメントを、同じ単語の異なる音響例が埋め込み空間の近傍に投影されるような固定次元ベクトル表現にマッピングすることを学習する。
音声技術の応用に加え、AWEモデルは様々な聴覚語彙処理タスクにおいて人間のパフォーマンスを予測することが示されている。
現在のAWEモデルはニューラルネットワークに基づいており、音響的手がかりを統合するボトムアップアプローチでトレーニングされ、音響的または象徴的な監視信号が与えられたワード表現を構築する。
したがって、これらのモデルは学習過程において高レベルな語彙知識を活用または取り込みません。
%と低レベルな単語形式情報をキャプチャする。
本稿では,トップダウンの語彙知識をAWEの学習手順に組み込んだマルチタスク学習モデルを提案する。
本モデルは,音声入力と語彙表現のマッピングを学習し,ボトムアップ形式に基づく監視に加えて,単語の意味などの高レベル情報を符号化する。
3つの言語を実験し,語彙知識を組み込むことで埋め込み空間の識別性が向上し,モデルの語彙カテゴリの分離性が向上することを示す。
関連論文リスト
- Neural approaches to spoken content embedding [1.3706331473063877]
我々は、リカレントニューラルネットワーク(RNN)に基づく新しい識別的音響単語埋め込み(AWE)と音響的接地単語埋め込み(AGWE)アプローチに貢献する。
我々は,単言語と多言語の両方の埋め込みモデルを,クエリ・バイ・サンプル音声検索と自動音声認識の下流タスクに適用する。
論文 参考訳(メタデータ) (2023-08-28T21:16:08Z) - Analyzing the Representational Geometry of Acoustic Word Embeddings [22.677210029168588]
音響単語埋め込み(AWEs)は、同じ単語の異なる音響例が近傍に投影されるようなベクトル表現である。
本稿では、英語の音声から学んだAWEを分析分析し、学習対象とアーキテクチャの選択がどのように表現プロファイルを形作るかを検討する。
論文 参考訳(メタデータ) (2023-01-08T10:22:50Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Analyzing autoencoder-based acoustic word embeddings [37.78342106714364]
音響単語埋め込み(AWEs)は、その音響的特徴を符号化した単語の表現である。
本研究では,6言語でシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルにより学習したAWE空間の基本特性を解析する。
AWEは、人間の音声処理と語彙アクセスに関する様々な研究で報告されたパターンと同様、単語の発症バイアスを示す。
論文 参考訳(メタデータ) (2020-04-03T16:11:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。