論文の概要: AURORA Model of Formant-to-Tongue Inversion for Didactic and Clinical Applications
- arxiv url: http://arxiv.org/abs/2603.17543v1
- Date: Wed, 18 Mar 2026 09:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.619781
- Title: AURORA Model of Formant-to-Tongue Inversion for Didactic and Clinical Applications
- Title(参考訳): AURORAモデルによるフォルマント・ツー・トングインバージョンの臨床応用
- Authors: Patrycja Strycharczuk, Sam Kirkham,
- Abstract要約: AURORAは、最初の2つのフォルマント値に基づいて母音音の舌の変位と形状を予測する。
モデルは、英語母語話者40名から超音波舌画像と音響データによって通知される。
我々は,このモデルをより広く利用できるようにするために開発された2つのツール,Shinyアプリ,およびリアルタイム舌バイオフィードバックのためのプロトタイプソフトウェアを提示する。
- 参考スコア(独自算出の注目度): 0.37599363231894173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper outlines the conceptual and computational foundations of the AURORA (Acoustic Understanding and Real-time Observation of Resonant Articulations) model. AURORA predicts tongue displacement and shape in vowel sounds based on the first two formant values. It is intended as a didactic aid helping to explain the relationship between formants and the underlying articulation, as well as a foundation for biofeedback applications. The model is informed by ultrasound tongue imaging and acoustic data from 40 native speakers of English. In this paper we discuss the motivation for the model, the modelling objectives as well as the model architecture. We provide a qualitative evaluation of the model, focusing on selected tongue features. We then present two tools developed to make the model more accessible to a wider audience, a Shiny app and a prototype software for real-time tongue biofeedback. Potential users include students of phonetics, linguists in fields adjacent to phonetics, as well as speech and language therapy practitioners and clients.
- Abstract(参考訳): 本稿では,AURORA(Acoustic Understanding and Real-time Observation of Resonant Articulations)モデルの概念的および計算的基礎について概説する。
AURORAは、最初の2つのフォルマント値に基づいて母音音の舌の変位と形状を予測する。
これは、フォルマントと下層の調音との関係を説明するのに役立ち、バイオフィードバックの基盤となることを目的としている。
モデルは、英語母語話者40名から超音波舌画像と音響データによって通知される。
本稿では,モデルのモチベーション,モデリング対象,モデルアーキテクチャについて論じる。
我々は,選択した舌の特徴に着目し,モデルの質的評価を行う。
次に、このモデルをより広く利用できるようにするために開発された2つのツール、Shinyアプリ、およびリアルタイム舌バイオフィードバックのためのプロトタイプソフトウェアを提示する。
潜在的なユーザは、音声学の学生、音声学に隣接する分野の言語学者、言語療法の実践者やクライアントなどである。
関連論文リスト
- Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - A Quantitative Approach to Understand Self-Supervised Models as
Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。
我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文 参考訳(メタデータ) (2023-11-27T15:58:28Z) - Self-Supervised Models of Speech Infer Universal Articulatory Kinematics [44.27187669492598]
SSLモデルの基本特性として「調音キネマティクスの推論」を示す。
また、この抽象化は、モデルをトレーニングするために使用されるデータの言語に大きく重なり合っていることも示しています。
簡単なアフィン変換では、アコースティック・トゥ・アコースティック・トゥ・アーティキュレーション・インバージョン(AAI)は、性別、言語、方言でさえ話者間で変換可能であることを示す。
論文 参考訳(メタデータ) (2023-10-16T19:50:01Z) - CiwaGAN: Articulatory information exchange [15.944474482218334]
人間は調音器を制御して音に情報をエンコードし、聴覚装置を用いて音から情報をデコードする。
本稿では、教師なし調音モデルと教師なし情報交換モデルを組み合わせた人間の音声言語習得モデルであるCiwaGANを紹介する。
論文 参考訳(メタデータ) (2023-09-14T17:10:39Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。