論文の概要: Deciphering Assamese Vowel Harmony with Featural InfoWaveGAN
- arxiv url: http://arxiv.org/abs/2407.06547v1
- Date: Tue, 9 Jul 2024 05:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 19:15:32.991427
- Title: Deciphering Assamese Vowel Harmony with Featural InfoWaveGAN
- Title(参考訳): Featural InfoWaveGANを用いたアサメ母音調和の解読
- Authors: Sneha Ray Barman, Shakuntala Mahanta, Neeraj Kumar Sharma,
- Abstract要約: 原音声データを用いた反復長距離母音調和学習のためのFeatural InfoWaveGANモデルの有用性について検討する。
Assameseは音韻論的に回帰的かつ単語境界の母音調和で知られている言語である。
本研究では,このモデルがアサメの音韻学の複雑さの把握に有効であることを実証する。
- 参考スコア(独自算出の注目度): 2.495922096144971
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional approaches for understanding phonological learning have predominantly relied on curated text data. Although insightful, such approaches limit the knowledge captured in textual representations of the spoken language. To overcome this limitation, we investigate the potential of the Featural InfoWaveGAN model to learn iterative long-distance vowel harmony using raw speech data. We focus on Assamese, a language known for its phonologically regressive and word-bound vowel harmony. We demonstrate that the model is adept at grasping the intricacies of Assamese phonotactics, particularly iterative long-distance harmony with regressive directionality. It also produced non-iterative illicit forms resembling speech errors during human language acquisition. Our statistical analysis reveals a preference for a specific [+high,+ATR] vowel as a trigger across novel items, indicative of feature learning. More data and control could improve model proficiency, contrasting the universality of learning.
- Abstract(参考訳): 音韻論的学習を理解する従来のアプローチは、主にキュレートされたテキストデータに依存してきた。
洞察に富んだアプローチではあるが、このようなアプローチは、音声言語のテキスト表現で得られた知識を制限する。
この制限を克服するために、生音声データを用いた反復長距離母音調和学習のためのFeatural InfoWaveGANモデルの可能性を検討する。
Assameseは音韻論的に回帰的かつ単語境界の母音調和で知られている言語である。
本研究では,アサメの音韻律の複雑さ,特に回帰方向の反復的長距離調和の把握に有効であることを示す。
また、人間の言語習得時の音声誤りに似た、意図しない不正な形式も生み出した。
統計的分析により,特徴学習の指標として,特定の[+high,+ATR]母音を新規項目のトリガーとして用いた。
より多くのデータとコントロールは、学習の普遍性と対照的に、モデルの習熟性を改善する可能性がある。
関連論文リスト
- Natural language guidance of high-fidelity text-to-speech with synthetic
annotations [13.642358232817342]
本稿では,話者識別,スタイル,記録条件の様々な側面をラベル付けするスケーラブルな手法を提案する。
次に、この手法を45k時間データセットに適用し、音声言語モデルを訓練する。
その結果, アクセント, 韻律スタイル, チャネル条件, 音響条件の多岐にわたる高忠実度音声生成が得られた。
論文 参考訳(メタデータ) (2024-02-02T21:29:34Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - Information-Theoretic Characterization of Vowel Harmony: A
Cross-Linguistic Study on Word Lists [18.138642719651994]
自然言語辞書における母音の予測可能性に基づく調和性の情報理論的尺度を定義する。
音素レベル言語モデル(PLM)を用いてこの調和性を推定する。
我々の研究は、単語リストが類型研究にとって貴重な資源であることを実証している。
論文 参考訳(メタデータ) (2023-08-09T11:32:16Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。