論文の概要: How Familiar Does That Sound? Cross-Lingual Representational Similarity
Analysis of Acoustic Word Embeddings
- arxiv url: http://arxiv.org/abs/2109.10179v1
- Date: Tue, 21 Sep 2021 13:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:23:28.369397
- Title: How Familiar Does That Sound? Cross-Lingual Representational Similarity
Analysis of Acoustic Word Embeddings
- Title(参考訳): その音はどんなに親しみやすいか?
音響単語埋め込みの言語間表現類似性解析
- Authors: Badr M. Abdullah, Iuliia Zaitova, Tania Avgustinova, Bernd M\"obius,
Dietrich Klakow
- Abstract要約: 本稿では、音響単語の埋め込み(AWE)を分析するために、表現類似性分析(RSA)に基づく新しい設計を提案する。
まず,類型的類似度の異なる7つのインド・ヨーロッパ語で単言語AWEモデルを訓練する。
次に、AWEを用いてネイティブおよび非ネイティブ音声単語処理をシミュレートし、言語間類似性を定量化するためにRSAを用いる。
- 参考スコア(独自算出の注目度): 12.788276426899312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How do neural networks "perceive" speech sounds from unknown languages? Does
the typological similarity between the model's training language (L1) and an
unknown language (L2) have an impact on the model representations of L2 speech
signals? To answer these questions, we present a novel experimental design
based on representational similarity analysis (RSA) to analyze acoustic word
embeddings (AWEs) -- vector representations of variable-duration spoken-word
segments. First, we train monolingual AWE models on seven Indo-European
languages with various degrees of typological similarity. We then employ RSA to
quantify the cross-lingual similarity by simulating native and non-native
spoken-word processing using AWEs. Our experiments show that typological
similarity indeed affects the representational similarity of the models in our
study. We further discuss the implications of our work on modeling speech
processing and language similarity with neural networks.
- Abstract(参考訳): ニューラルネットワークは未知の言語から音声を"知覚する"のか?
モデルの訓練言語(l1)と未知言語(l2)の類型的類似性は、l2音声信号のモデル表現に影響を与えるか?
これらの疑問に答えるために,音響単語埋め込み (AWEs) を解析するための表現類似性分析 (RSA) に基づく新しい実験設計を提案する。
まず,類型的類似度の異なるインド・ヨーロッパ7言語で単言語AWEモデルを訓練する。
次に、AWEを用いてネイティブおよび非ネイティブ音声単語処理をシミュレートし、言語間類似性を定量化するためにRSAを用いる。
実験の結果,類型的類似性は,本研究におけるモデルの表現的類似性に影響を与えることがわかった。
さらに,音声処理のモデル化とニューラルネットワークとの言語類似性について検討した。
関連論文リスト
- Perception of Phonological Assimilation by Neural Speech Recognition Models [3.4173734484549625]
本稿では、ニューラルネットワーク認識モデルであるWav2Vec2が、同化音をどのように知覚するかを考察する。
心理言語学的刺激を用いて、様々な言語文脈がモデル出力の補償パターンにどのように影響するかを分析する。
論文 参考訳(メタデータ) (2024-06-21T15:58:22Z) - Exploring How Generative Adversarial Networks Learn Phonological
Representations [6.119392435448723]
GAN(Generative Adversarial Networks)は、音韻現象の表現を学習する。
我々は、フランス語と英語の母音において、GANがコントラスト的および非コントラスト的鼻音をエンコードする方法を分析する。
論文 参考訳(メタデータ) (2023-05-21T16:37:21Z) - Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS) [3.57486761615991]
統一表現は、自然性とアクセントの両方に関して、より優れた言語間合成を達成する。
分離表現は、モデルキャパシティに影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
論文 参考訳(メタデータ) (2022-07-04T16:14:57Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Do Acoustic Word Embeddings Capture Phonological Similarity? An
Empirical Study [12.210797811981173]
本稿では,音響埋め込み空間内の距離が音韻的相似性と相関しているかを問う。
我々は、AWEモデルを2つの言語(ドイツ語とチェコ語)の制御設定で訓練し、単語識別と音韻的類似性という2つのタスクへの埋め込みを評価する。
実験の結果,(1)ベストケースにおける埋め込み空間内の距離は音韻的距離と適度に相関すること,(2)単語識別タスクの性能向上が必ずしも単語の音韻的類似性を反映したモデルを生成するとは限らないことがわかった。
論文 参考訳(メタデータ) (2021-06-16T10:47:56Z) - Decomposing lexical and compositional syntax and semantics with deep
language models [82.81964713263483]
GPT2のような言語変換器の活性化は、音声理解中の脳活動に線形にマップすることが示されている。
本稿では,言語モデルの高次元アクティベーションを,語彙,構成,構文,意味表現の4つのクラスに分類する分類法を提案する。
その結果は2つの結果が浮かび上がった。
まず、構成表現は、語彙よりも広範な皮質ネットワークを募集し、両側の側頭、頭頂、前頭前皮質を包含する。
論文 参考訳(メタデータ) (2021-03-02T10:24:05Z) - Neural Representations for Modeling Variation in Speech [9.27189407857061]
ニューラルモデルを用いて、英語の母語話者と母語話者の単語ベースの発音差を計算する。
特定のタイプのニューラルモデル(すなわちトランスフォーマー)から抽出された音声表現は,従来の2つのアプローチよりも,人間の知覚とよりよく一致していることを示す。
論文 参考訳(メタデータ) (2020-11-25T11:19:12Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。