論文の概要: Multilingual Phonological Feature Recognition with Self-Supervised Speech Models
- arxiv url: http://arxiv.org/abs/2605.25596v1
- Date: Mon, 25 May 2026 08:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.530352
- Title: Multilingual Phonological Feature Recognition with Self-Supervised Speech Models
- Title(参考訳): 自己教師付き音声モデルを用いた多言語音韻特徴認識
- Authors: Abner Hernandez, Tomás Arias-Vergara, Daiqi Liu, Andreas Maier, Paula Andrea Pérez-Toro,
- Abstract要約: 自己教師型音声モデルに基づく多言語フレームレベルの音声特徴認識システムであるPhonoQ-2.0を提案する。
このシステムは、音素出力から特徴を引き出すのではなく、フレーム符号化方式、母音品質、場所、発声ごとに22次元の構造化特徴ベクトルを直接予測する。
- 参考スコア(独自算出の注目度): 9.697606604686817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phonological features provide a language-general and linguistically grounded representation of speech. We present PhonoQ-2.0, a multilingual frame-level phonological feature recognizer built on self-supervised speech models. The system directly predicts a structured 22-dimensional feature vector per frame encoding manner, vowel quality, place, and voicing, instead of deriving features from phoneme outputs. To ensure phonologically coherent predictions, we introduce a manner-conditioned gating mechanism that activates valid feature groups. Evaluated across multiple languages and corpora, PhonoQ-2.0 achieves an average macro-F1 of 91.3% in-domain and 88.9% out-of-domain. Compared to a strong CTC phoneme baseline, it delivers consistent gains of +8.8 F1 in-domain and +8.6 out-of-domain on average. In unseen-language evaluation, PhonoQ-2.0 improves macro-F1 from 66.9% to 73.6% (+6.7 on average), with gains of up to +10.8 points.
- Abstract(参考訳): 音韻学的特徴は、言語一般で言語的に根ざした音声表現を提供する。
自己教師型音声モデルに基づく多言語フレームレベルの音声特徴認識システムであるPhonoQ-2.0を提案する。
このシステムは、音素出力から特徴を引き出すのではなく、フレーム符号化方式、母音品質、場所、発声ごとに22次元の構造化特徴ベクトルを直接予測する。
音韻的コヒーレントな予測を保証するため,有効な特徴群を活性化する方法条件付きゲーティング機構を導入する。
PhonoQ-2.0は複数の言語とコーパスで評価され、平均的なマクロF1は91.3%のドメイン内、88.9%のドメイン外である。
強いCTC音素ベースラインと比較すると、平均して+8.8 F1ドメインと+8.6ドメインアウトオブドメインの一貫性のあるゲインを提供する。
目に見えない言語評価では、PhonoQ-2.0はマクロF1を66.9%から73.6%(平均で+6.7)に改善し、最大+10.8ポイントまで上昇した。
関連論文リスト
- Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - QU-NLP at CheckThat! 2025: Multilingual Subjectivity in News Articles Detection using Feature-Augmented Transformer Models with Sequential Cross-Lingual Fine-Tuning [0.21756081703275998]
本稿では,主観性検出における2025タスク1のチェックタットに対するアプローチについて述べる。
本稿では,事前学習した言語モデルからの文脈埋め込みと統計的・言語的特徴を組み合わせた機能拡張型トランスフォーマーアーキテクチャを提案する。
モノリンガル,多言語,ゼロショット設定で,英語,アラビア語,ドイツ語,イタリア語,およびいくつかの未知言語を含む複数の言語で評価を行った。
論文 参考訳(メタデータ) (2025-07-01T13:39:59Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition [26.693942793501204]
エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。
Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。
訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
論文 参考訳(メタデータ) (2024-06-04T16:59:11Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Nonwords Pronunciation Classification in Language Development Tests for
Preschool Children [7.224391516694955]
本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。
本研究の課題は、発話された非単語が正しく発声されたかどうかを判断することである。
特定の言語構造をモデル化する動機付けの異なるアプローチを比較する。
論文 参考訳(メタデータ) (2022-06-16T10:19:47Z) - Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging
Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。
本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。
生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文 参考訳(メタデータ) (2022-06-15T07:20:28Z) - Leveraging neural representations for facilitating access to
untranscribed speech from endangered languages [10.61744395262441]
オーストラリア・アボリジニの7言語とオランダの地方種から選択したデータを用いている。
wav2vec 2.0 Transformerの中間層からの表現は、タスクパフォーマンスに大きな利益をもたらす。
予め訓練された英語モデルを用いて抽出された特徴は、すべての評価言語の検出を改善したが、より良い検出性能は、評価言語の英語との音韻学的類似性と関連していた。
論文 参考訳(メタデータ) (2021-03-26T16:44:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。