論文の概要: Prosodic ABX: A Language-Agnostic Method for Measuring Prosodic Contrast in Speech Representations
- arxiv url: http://arxiv.org/abs/2604.02102v1
- Date: Thu, 02 Apr 2026 14:28:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.855277
- Title: Prosodic ABX: A Language-Agnostic Method for Measuring Prosodic Contrast in Speech Representations
- Title(参考訳): 韻律的ABX:音声表現における韻律的コントラストの測定のための言語非依存手法
- Authors: Haitong Sun, Stephen McIntosh, Kwanghee Choi, Eunjung Yeo, Daisuke Saito, Nobuaki Minematsu,
- Abstract要約: このフレームワークの拡張である韻律ABXを導入し、少数の例と明示的なラベルを伴わずに韻律のコントラストを評価する。
また,英語と日本語の最小対のデータセットを構築し,それをマンダリンデータセットと一緒に使用して,英語のストレス,日本語のピッチアクセント,マンダリンのトーンのコントラストを評価する。
- 参考スコア(独自算出の注目度): 23.547651720145975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech representations from self-supervised speech models (S3Ms) are known to be sensitive to phonemic contrasts, but their sensitivity to prosodic contrasts has not been directly measured. The ABX discrimination task has been used to measure phonemic contrast in S3M representations via minimal pairs. We introduce prosodic ABX, an extension of this framework to evaluate prosodic contrast with only a handful of examples and no explicit labels. Also, we build and release a dataset of English and Japanese minimal pairs and use it along with a Mandarin dataset to evaluate contrast in English stress, Japanese pitch accent, and Mandarin tone. Finally, we show that model and layer rankings are often preserved across several experimental conditions, making it practical for low-resource settings.
- Abstract(参考訳): 自己教師音声モデル(S3Ms)からの音声表現は音韻のコントラストに敏感であることが知られているが、韻律のコントラストに対する感度は直接測定されていない。
ABX識別タスクは、最小ペアを通してS3M表現における音韻コントラストを測定するために使われてきた。
このフレームワークの拡張である韻律ABXを導入し、少数の例と明示的なラベルを伴わずに韻律のコントラストを評価する。
また,英語と日本語の最小対のデータセットを構築し,それをマンダリンデータセットと一緒に使用して,英語のストレス,日本語のピッチアクセント,マンダリンのトーンのコントラストを評価する。
最後に、モデルとレイヤのランク付けは、複数の実験条件にまたがって保持されることがしばしばあり、低リソース環境では実用的であることを示す。
関連論文リスト
- An Effective Strategy for Modeling Score Ordinality and Non-uniform Intervals in Automated Speaking Assessment [14.003981407136072]
自己教師付き学習表現は、特徴キュレーションの前提となる仮定なしに、非ネイティブ音声における豊かな音響的および言語的パターンをキャプチャする。
ほとんどの先行芸術は、熟練度レベルを名目上の階級として扱い、その順序構造と熟練度ラベル間の一様でない間隔を無視している。
本稿では,SSLと手作りインジケータ機能を組み合わせた効果的なASA手法を提案する。
論文 参考訳(メタデータ) (2025-08-27T09:18:51Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Self-Supervised Speech Representations are More Phonetic than Semantic [52.02626675137819]
自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。
S3Msで符号化された単語レベルの言語特性のよりきめ細かい分析を求める。
本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-06-12T20:04:44Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - The Perceptimatic English Benchmark for Speech Perception Models [11.646802225841153]
ベンチマークは、ABX刺激と91人のアメリカ語を話すリスナーの反応で構成されている。
標準的な英語音声認識器であるDeepSpeechは、英語のリスナーよりも英語の音素識別に特化していることを示す。
論文 参考訳(メタデータ) (2020-05-07T12:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。