論文の概要: From `Snippet-lects' to Doculects and Dialects: Leveraging Neural
Representations of Speech for Placing Audio Signals in a Language Landscape
- arxiv url: http://arxiv.org/abs/2305.18602v1
- Date: Mon, 29 May 2023 20:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 19:15:11.289554
- Title: From `Snippet-lects' to Doculects and Dialects: Leveraging Neural
Representations of Speech for Placing Audio Signals in a Language Landscape
- Title(参考訳): snippet-lects」から「doculects and dialects」へ : 言語環境における音声信号配置のための音声のニューラル表現の活用
- Authors: S\'everine Guillaume, Guillaume Wisniewski, and Alexis Michaud
- Abstract要約: XLSR-53は音声の多言語モデルであり、音声からベクトル表現を構築する。
我々は、最大プーリングを使用して、神経表現を「スニペットレクト」から「ドキュレクト」に集約する。
11のコーパス間の類似度測定は、同一言語の方言として知られているものの間に最も近い関係をもたらす。
- 参考スコア(独自算出の注目度): 3.96673286245683
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: XLSR-53 a multilingual model of speech, builds a vector representation from
audio, which allows for a range of computational treatments. The experiments
reported here use this neural representation to estimate the degree of
closeness between audio files, ultimately aiming to extract relevant linguistic
properties. We use max-pooling to aggregate the neural representations from a
"snippet-lect" (the speech in a 5-second audio snippet) to a "doculect" (the
speech in a given resource), then to dialects and languages. We use data from
corpora of 11 dialects belonging to 5 less-studied languages. Similarity
measurements between the 11 corpora bring out greatest closeness between those
that are known to be dialects of the same language. The findings suggest that
(i) dialect/language can emerge among the various parameters characterizing
audio files and (ii) estimates of overall phonetic/phonological closeness can
be obtained for a little-resourced or fully unknown language. The findings help
shed light on the type of information captured by neural representations of
speech and how it can be extracted from these representations
- Abstract(参考訳): XLSR-53は音声の多言語モデルであり、音声からベクトル表現を構築し、様々な計算処理を可能にする。
ここで報告された実験では、この神経表現を用いて音声ファイル間の近接度を推定し、究極的には関連する言語特性の抽出を目的としている。
我々は、最大プーリングを用いて、5秒音声スニペットの音声(snippet-lect)から、与えられたリソースの音声(doculect)へと神経表現を集約し、その後、方言や言語に変換する。
5つの少ない言語に属する11の方言のコーパスからのデータを使用します。
11のコーパス間の類似度測定は、同一言語の方言として知られているものの間に最も近い関係をもたらす。
調査結果は
(i)音声ファイルを特徴付ける様々なパラメータに方言/言語が出現することがある
(ii) 音声・音韻的近接性の評価は, ほとんど情報源のない, あるいは完全に未知の言語に対して得られる。
この発見は、音声のニューラル表現が捉えた情報の種類と、それらの表現からどのように抽出できるかを光らせるのに役立つ。
関連論文リスト
- Literary and Colloquial Dialect Identification for Tamil using Acoustic Features [0.0]
音声技術は、言語の様々な方言が絶滅しないようにする役割を担っている。
現在の研究は、人気のある2つのタミル方言と広く分類されたタミル方言を識別する方法を提案する。
論文 参考訳(メタデータ) (2024-08-27T09:00:27Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - Speech language models lack important brain-relevant semantics [6.626540321463248]
近年の研究では、テキストベースの言語モデルは、テキスト誘発脳活動と音声誘発脳活動の両方を驚くほど予測している。
このことは、脳内でどのような情報言語モデルが本当に予測されるのかという疑問を引き起こします。
論文 参考訳(メタデータ) (2023-11-08T13:11:48Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Can phones, syllables, and words emerge as side-products of
cross-situational audiovisual learning? -- A computational investigation [2.28438857884398]
いわゆる潜在言語仮説(LLH)について検討する。
LLHは言語表現学習を、知覚のモダリティ内および横断的な一般的な予測処理に結びつける。
我々は、様々なニューラルネットワークモデルを用いた広範学習シミュレーションにおけるLLHをさらに探求する。
論文 参考訳(メタデータ) (2021-09-29T05:49:46Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - CSTNet: Contrastive Speech Translation Network for Self-Supervised
Speech Representation Learning [11.552745999302905]
7000の言語のうち、半数以上が絶滅の危機にさらされている。
音声に対応するテキスト翻訳は比較的容易である。
音声から言語表現を抽出できる畳み込みニューラルネットワークオーディオエンコーダを構築する。
論文 参考訳(メタデータ) (2020-06-04T12:21:48Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。