論文の概要: The Tonogenesis Continuum in Tibetan: A Computational Investigation
- arxiv url: http://arxiv.org/abs/2510.22485v1
- Date: Sun, 26 Oct 2025 01:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.216615
- Title: The Tonogenesis Continuum in Tibetan: A Computational Investigation
- Title(参考訳): チベットにおけるトン生成の継続性 : 計算的考察
- Authors: Siyu Liang, Zhaxi Zerong,
- Abstract要約: 音の変化の異なる段階におけるピッチの機能的役割を定量化する計算手法。
Atonal Amdo 方言はピッチ除去を最も許容するが、フルトーナルな U-Tsang 品種は深刻な劣化を示す。
従来の関数的負荷測定は、最小対のみに基づくものであり、遷移系におけるピッチ依存を過大評価する可能性がある。
- 参考スコア(独自算出の注目度): 3.2199378493446904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tonogenesis-the historical process by which segmental contrasts evolve into lexical tone-has traditionally been studied through comparative reconstruction and acoustic phonetics. We introduce a computational approach that quantifies the functional role of pitch at different stages of this sound change by measuring how pitch manipulation affects automatic speech recognition (ASR) performance. Through analysis on the sensitivity to pitch-flattening from a set of closely related Tibetan languages, we find evidence of a tonogenesis continuum: atonal Amdo dialects tolerate pitch removal the most, while fully tonal U-Tsang varieties show severe degradation, and intermediate Kham dialects fall measurably between these extremes. These gradient effects demonstrate how ASR models implicitly learn the shifting functional load of pitch as languages transition from consonant-based to tone-based lexical contrasts. Our findings show that computational methods can capture fine-grained stages of sound change and suggest that traditional functional load metrics, based solely on minimal pairs, may overestimate pitch dependence in transitional systems where segmental and suprasegmental cues remain phonetically intertwined.
- Abstract(参考訳): トノジェネレーション(トノジェネレーション) - 音節のコントラストがレキシカルトーンに進化する歴史的過程は、伝統的に比較再構成と音響音響学によって研究されてきた。
本稿では,ピッチ操作が自動音声認識(ASR)の性能に与える影響を計測することにより,音変化の異なる段階でのピッチの機能的役割を定量化する計算手法を提案する。
近縁なチベット諸語からのピッチフラット化に対する感受性の分析により,音素連続性の証拠が得られた。無音アンド方言はピッチ除去を最も許容し,完全音素のU-Tsang品種は深刻な劣化を示し,中間のカム方言はこれらの極端の間で測定可能に低下する。
これらの勾配効果は、言語が子音ベースから音調ベースの語彙コントラストに遷移するにつれて、ASRモデルがピッチのシフトする機能的負荷を暗黙的に学習する方法を示す。
提案手法は,音の微妙な変化を捉えることが可能であり,最小対のみに基づく従来の機能的負荷測定値が,音節と上行程が音声的に介在する過渡的システムにおけるピッチ依存性を過大評価する可能性があることを示唆している。
関連論文リスト
- Hallucination Benchmark for Speech Foundation Models [33.92968426403491]
自動音声認識(ASR)システムにおける幻覚とは、基礎となる音響入力(すなわち、音声信号)とは全く無関係な神経性ASRモデルによって生成される流動的でコヒーレントな転写を指す。
この明らかな一貫性は、その後の処理段階を誤解させ、特に医療や法のような重要な領域において重大なリスクをもたらす可能性がある。
本稿では,ASRにおける幻覚現象を,語彙,音声,形態,意味の4つの相補軸に沿って体系的に分類し,定量化する最初のベンチマークフレームワークであるSHALLOWを紹介する。
論文 参考訳(メタデータ) (2025-10-18T16:26:16Z) - New Insights into Optimal Alignment of Acoustic and Linguistic Representations for Knowledge Transfer in ASR [30.00166986946003]
我々は、アライメントとマッチングを検出問題とみなすために、新たな洞察を得る。
目標は、高精度で意味のある対応を識別し、言語トークンの完全なカバレッジを確保することである。
分布ミスマッチと構造的非対称性を明示的に扱う不均衡な輸送ベースアライメントモデルを提案する。
論文 参考訳(メタデータ) (2025-09-06T05:58:52Z) - Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。
これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文 参考訳(メタデータ) (2025-06-19T08:24:17Z) - Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - DyPCL: Dynamic Phoneme-level Contrastive Learning for Dysarthric Speech Recognition [12.923409319624254]
変形性音声認識のギャップを埋める動的音素レベルのコントラスト学習(DyPCL)法を提案する。
音声の発話を音素レベルのコントラスト学習のための音素セグメントに分解し、動的接続性時間的分類アライメントを活用する。
難易度による訓練への我々のアプローチは、話者の固有の多様性を軽減し、難易度の高い発話を識別する。
論文 参考訳(メタデータ) (2025-01-31T10:25:42Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Latent Class-Conditional Noise Model [54.56899309997246]
本稿では,ベイズ的枠組みの下での雑音遷移をパラメータ化するためのLatent Class-Conditional Noise Model (LCCN)を提案する。
次に、Gibs sampler を用いて遅延真のラベルを効率的に推測できる LCCN の動的ラベル回帰法を導出する。
提案手法は,サンプルのミニバッチから事前の任意チューニングを回避するため,ノイズ遷移の安定な更新を保護している。
論文 参考訳(メタデータ) (2023-02-19T15:24:37Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - A Tale of Two Perplexities: Sensitivity of Neural Language Models to
Lexical Retrieval Deficits in Dementia of the Alzheimer's Type [10.665308703417665]
近年,認知症患者が発声した音声サンプルと健常者から発声した音声サンプルを区別するための計算手法の使用に対する関心が高まっている。
2つのニューラルネットワークモデル(LM)からのパープレキシティ推定の違いは、最先端の性能をもたらすことが示されている。
我々は, ニューラルLMのパープレキシティは, 語彙周波数と強く, 差分関係が強く, 補間制御と認知症から生じる混合モデルは, 転写テキストでのみ訓練されたモデルに対する現在の最先端のモデルにより改善されることを見出した。
論文 参考訳(メタデータ) (2020-05-07T16:22:48Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。