論文の概要: Articulatory strategy in vowel production as a basis for speaker discrimination
- arxiv url: http://arxiv.org/abs/2505.20995v1
- Date: Tue, 27 May 2025 10:29:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.580735
- Title: Articulatory strategy in vowel production as a basis for speaker discrimination
- Title(参考訳): 話者識別の基礎としての母音生成における調音戦略
- Authors: Justin J. H. Lo, Patrycja Strycharczuk, Sam Kirkham,
- Abstract要約: 母音生成における調音戦略は、話者識別の基礎を形成するのに十分な話者固有性を持つ。
イングランド北西部の40人の英語話者の舌形データの解析
- 参考スコア(独自算出の注目度): 2.2940141855172036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The way speakers articulate is well known to be variable across individuals while at the same time subject to anatomical and biomechanical constraints. In this study, we ask whether articulatory strategy in vowel production can be sufficiently speaker-specific to form the basis for speaker discrimination. We conducted Generalised Procrustes Analyses of tongue shape data from 40 English speakers from the North West of England, and assessed the speaker-discriminatory potential of orthogonal tongue shape features within the framework of likelihood ratios. Tongue size emerged as the individual dimension with the strongest discriminatory power, while tongue shape variation in the more anterior part of the tongue generally outperformed tongue shape variation in the posterior part. When considered in combination, shape-only information may offer comparable levels of speaker specificity to size-and-shape information, but only when features do not exhibit speaker-level co-variation.
- Abstract(参考訳): 話者の話し方は、解剖学的および生体力学的制約を受けながら、個人間で変動することがよく知られている。
本研究では,母音生成における調音戦略が話者識別の基礎を形成するのに十分な話者固有性を持つか否かを問う。
イングランド北西部の40人の英語話者の舌形状データに関する総合的プロクリスト分析を行い, 舌形態の特徴の話者識別可能性について, 確率比の枠組みで検討した。
舌の大きさは, 舌の前方部における舌形状の変化は, 舌の後方部における舌形状の変化よりも優れていた。
組み合わせて考えると、形状のみの情報は大きさと形状の情報を比較できるが、特徴が話者レベルの共変を示さない場合に限られる。
関連論文リスト
- We Need Variations in Speech Generation: Sub-center Modelling for Speaker Embeddings [47.2515056854372]
本稿では,学習中に話者単位の複数のサブセンタを利用する新しい話者埋め込みネットワークを提案する。
このサブセンターモデリングにより、埋め込みは話者分類性能を維持しながら、幅広い話者固有のバリエーションを捉えることができる。
論文 参考訳(メタデータ) (2024-07-05T06:54:24Z) - Language Generation from Brain Recordings [68.97414452707103]
本稿では,大言語モデルと意味脳デコーダの容量を利用した生成言語BCIを提案する。
提案モデルでは,視覚的・聴覚的言語刺激のセマンティック内容に整合したコヒーレントな言語系列を生成することができる。
本研究は,直接言語生成におけるBCIの活用の可能性と可能性を示すものである。
論文 参考訳(メタデータ) (2023-11-16T13:37:21Z) - ChatGPT as a Text Simplification Tool to Remove Bias [0.0]
特定のサブグループに特有の言語信号の存在は、訓練中に言語モデルによって拾うことができる。
テキストの簡易化という形でバイアス緩和の可能性を探る。
論文 参考訳(メタデータ) (2023-05-09T13:10:23Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - How individuals change language [1.2437226707039446]
我々は,多種多様な個人レベルの言語行動を含む,非常に一般的な数学的モデルを導入する。
異なる仮定の下で複数の言語における定冠詞と不定冠詞の実証的な変化の可能性を比較した。
幼児期の言語習得の誤りを主眼とする言語変化の説明は、歴史的データによって非常に弱く支持されている。
論文 参考訳(メタデータ) (2021-04-20T19:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。