論文の概要: IPA-CHILDES & G2P+: Feature-Rich Resources for Cross-Lingual Phonology and Phonemic Language Modeling
- arxiv url: http://arxiv.org/abs/2504.03036v1
- Date: Thu, 03 Apr 2025 21:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:37.196886
- Title: IPA-CHILDES & G2P+: Feature-Rich Resources for Cross-Lingual Phonology and Phonemic Language Modeling
- Title(参考訳): IPA-ChiLDES & G2P+:言語横断音韻と音韻言語モデリングのための特徴リッチリソース
- Authors: Zébulon Goriely, Paula Buttery,
- Abstract要約: 正書法データセットを一貫した音韻表現に変換するツールであるG2P+を紹介する。
また、31言語にまたがる子育て音声の音声データセットであるIPA CHILDESを提示する。
- 参考スコア(独自算出の注目度): 2.335764524038488
- License:
- Abstract: In this paper, we introduce two resources: (i) G2P+, a tool for converting orthographic datasets to a consistent phonemic representation; and (ii) IPA CHILDES, a phonemic dataset of child-centered speech across 31 languages. Prior tools for grapheme-to-phoneme conversion result in phonemic vocabularies that are inconsistent with established phonemic inventories, an issue which G2P+ addresses by leveraging the inventories in the Phoible database. Using this tool, we augment CHILDES with phonemic transcriptions to produce IPA CHILDES. This new resource fills several gaps in existing phonemic datasets, which often lack multilingual coverage, spontaneous speech, and a focus on child-directed language. We demonstrate the utility of this dataset for phonological research by training phoneme language models on 11 languages and probing them for distinctive features, finding that the distributional properties of phonemes are sufficient to learn major class and place features cross-lingually.
- Abstract(参考訳): 本稿では,2つの資源を紹介する。
(i)G2P+ 正書法データセットを一貫した音韻表現に変換するツール、及び
(ii)IPA CHILDESは,31言語にまたがる子ども中心音声の音声データセットである。
Phoibleデータベースの在庫を活用してG2P+が対処する問題である、確立された音素在庫と矛盾しない音素語彙がグラファイムから音素への変換に先立つツールである。
本ツールを用いて, 音素転写による子音を増強し, IPA子音を生成する。
この新しいリソースは既存の音声データセットのギャップを埋めるもので、多言語カバレッジ、自然発話、子供指向言語に重点を置いていないことが多い。
本データセットは,11言語における音素言語モデルの学習と特徴探索により,音素の分布特性が主要なクラスや特徴を言語横断的に学習するのに十分であることを示す。
関連論文リスト
- Optimizing Two-Pass Cross-Lingual Transfer Learning: Phoneme Recognition
and Phoneme to Grapheme Translation [9.118302330129284]
本研究は低リソース言語における2パスの言語間変換学習を最適化する。
共有調音特性に基づいて音素を融合させることにより,音素語彙のカバレッジを最適化する。
音素と音素の訓練中に, 現実的なASR雑音に対するグローバルな音素ノイズ発生装置を導入し, 誤りの伝搬を低減する。
論文 参考訳(メタデータ) (2023-12-06T06:37:24Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Multilingual and crosslingual speech recognition using
phonological-vector based phone embeddings [20.93287944284448]
そこで本稿では,音韻処理による音声の埋め込み(トップダウン)とディープニューラルネットワーク(DNN)に基づく音響特徴抽出(ボットアップ)を併用して,音声の確率を計算することを提案する。
音声認識には音響から音韻的特徴への逆変換は不要である。
CommonVoiceデータセット(ドイツ語、フランス語、スペイン語、イタリア語)とAISHLL-1データセット(マンダリン)で実験が行われた。
論文 参考訳(メタデータ) (2021-07-11T12:56:47Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications [4.619541348328938]
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
論文 参考訳(メタデータ) (2020-09-11T15:26:55Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。