論文の概要: ARTI-6: Towards Six-dimensional Articulatory Speech Encoding
- arxiv url: http://arxiv.org/abs/2509.21447v1
- Date: Thu, 25 Sep 2025 19:18:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.931822
- Title: ARTI-6: Towards Six-dimensional Articulatory Speech Encoding
- Title(参考訳): ARTI-6:6次元調音音声符号化に向けて
- Authors: Jihwan Lee, Sean Foley, Thanathai Lertpetchpun, Kevin Huang, Yoonjeong Lee, Tiantian Feng, Louis Goldstein, Dani Byrd, Shrikanth Narayanan,
- Abstract要約: ARTI-6は、リアルタイムMRIデータから導出した6次元音声符号化フレームワークである。
ARTI-6は,(1)声道のキー領域を表す6次元の調音特徴集合,(2)音声音響から調音特徴を予測する調音反転モデル,(3)聴覚特徴から直接可聴音声を再構成する調音合成モデルからなる。
- 参考スコア(独自算出の注目度): 43.89047446459631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose ARTI-6, a compact six-dimensional articulatory speech encoding framework derived from real-time MRI data that captures crucial vocal tract regions including the velum, tongue root, and larynx. ARTI-6 consists of three components: (1) a six-dimensional articulatory feature set representing key regions of the vocal tract; (2) an articulatory inversion model, which predicts articulatory features from speech acoustics leveraging speech foundation models, achieving a prediction correlation of 0.87; and (3) an articulatory synthesis model, which reconstructs intelligible speech directly from articulatory features, showing that even a low-dimensional representation can generate natural-sounding speech. Together, ARTI-6 provides an interpretable, computationally efficient, and physiologically grounded framework for advancing articulatory inversion, synthesis, and broader speech technology applications. The source code and speech samples are publicly available.
- Abstract(参考訳): 本研究では, 喉頭, 舌根, 喉頭などの重要な声道領域をリアルタイムMRIデータから抽出した, コンパクトな6次元音声符号化フレームワークARTI-6を提案する。
ARTI-6は,(1)声道のキー領域を表す6次元の調音特徴集合,(2)音声基礎モデルを利用した音声音響から調音特徴を予測する調音反転モデル,(3)音声特徴から直に理解可能な音声を再構成する調音合成モデルからなる。
ARTI-6は、音声のインバージョン、合成、およびより広範な音声技術応用を進めるための、解釈可能で、計算効率が高く、生理学的に基礎付けられたフレームワークを提供する。
ソースコードと音声サンプルは公開されている。
関連論文リスト
- DYNARTmo: A Dynamic Articulatory Model for Visualization of Speech Movement Patterns [0.0]
DYNARTMOは,2次元中矢状平面における音声の調音過程を可視化する動的調音モデルである。
このモデルは、UK-DYNAMOフレームワークに基づいて構築され、調音的不特定性、分節的およびジェスチャー的制御、協調の原理を統合している。
論文 参考訳(メタデータ) (2025-07-27T16:19:46Z) - CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。
CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。
データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文 参考訳(メタデータ) (2025-05-23T07:55:21Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - Coding Speech through Vocal Tract Kinematics [5.0751585360524425]
調音特徴は声道調音器のキネマティックな形状と音源の特徴の痕跡であり、直感的に解釈可能で制御可能である。
話者埋め込みは音節から効果的に切り離され、アクセントを保ったゼロショット音声変換が可能となる。
論文 参考訳(メタデータ) (2024-06-18T18:38:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。