Fugu-MT 論文翻訳(概要): Evaluating Speech Articulation Synthesis with Articulatory Phoneme Recognition

論文の概要: Evaluating Speech Articulation Synthesis with Articulatory Phoneme Recognition

arxiv url: http://arxiv.org/abs/2605.20920v1
Date: Wed, 20 May 2026 09:06:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 19:19:56.588338
Title: Evaluating Speech Articulation Synthesis with Articulatory Phoneme Recognition
Title（参考訳）: 調音音素認識を用いた音声調音合成の評価
Authors: Vinicius Ribeiro, Yves Laprie,
Abstract要約: 単一話者RT-MRIデータセットから抽出した音響的特徴と調音的特徴を持つニューラルネットワークを訓練する。モデルをテストする際の認識性能を,異なる合成調音特性で比較する。以上の結果から,音声特徴集合は音声学的にリッチであり,音声調音合成における追加次元の探索に有効であることが示唆された。
参考スコア（独自算出の注目度）: 3.9081852410751714
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in machine learning and the availability of articulatory datasets allow vocal tract synthesis to be conditioned on phonetic sequences, a primary task of articulatory speech synthesis. However, quality assessment needs a better definition. Generally, ranking generative models is tricky due to subjectivity. However, articulatory synthesis has the additional difficulty of requiring specialized knowledge in vocal tract anatomy and acoustics. To address this problem, this paper proposes to evaluate speech articulation synthesis using phoneme recognition as a proxy. Our hypothesis is that phoneme recognition using articulatory features better captures nuances in phoneme production, such as correct places of articulation, which traditional metrics (e.g., point-wise distance metrics) do not. We train a neural network with acoustic and articulatory features extracted from a single-speaker RT-MRI dataset. Then, we compare the recognition performance when testing the model with different synthetic articulatory features. Our results show that our articulatory feature set is phonetically rich and helps exploring additional dimensions on speech articulation synthesis.
Abstract（参考訳）: 近年の機械学習と調音データセットの活用により,音声合成の主要な課題である音素配列に声道合成を条件付けることが可能になった。しかし、品質評価はより良い定義が必要です。一般的に、生成モデルのランク付けは主観性のため難しい。しかし、調音合成は、声道解剖学や音響学の専門知識を必要とすることの難しさが増している。そこで本研究では,音素認識をプロキシとして用い,音声の調音合成を評価することを提案する。我々の仮説は、音素認識は音素生成におけるニュアンスをよりよく捉え、例えば、従来の測度(例えば、点距離測度)では得られないような、音素生成におけるニュアンス(ニュアンス)を捉えることである。単一話者RT-MRIデータセットから抽出した音響的特徴と調音的特徴を持つニューラルネットワークを訓練する。次に,異なる合成調音特性でモデルをテストする際の認識性能を比較した。以上の結果から,音声特徴集合は音声学的にリッチであり,音声調音合成における追加次元の探索に有効であることが示唆された。

関連論文リスト

Coding Speech through Vocal Tract Kinematics [5.0751585360524425]
調音特徴は声道調音器のキネマティックな形状と音源の特徴の痕跡であり、直感的に解釈可能で制御可能である。話者埋め込みは音節から効果的に切り離され、アクセントを保ったゼロショット音声変換が可能となる。
論文参考訳（メタデータ） (2024-06-18T18:38:17Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文参考訳（メタデータ） (2022-04-01T14:25:19Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文参考訳（メタデータ） (2022-03-24T16:33:29Z)
Speech Resynthesis from Discrete Disentangled Self-Supervised Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文参考訳（メタデータ） (2021-04-01T09:20:33Z)
Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文参考訳（メタデータ） (2020-12-30T15:09:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。