論文の概要: Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping
- arxiv url: http://arxiv.org/abs/2604.27204v1
- Date: Wed, 29 Apr 2026 21:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.808298
- Title: Selective Augmentation: Improving Universal Automatic Phonetic Transcription via G2P Bootstrapping
- Title(参考訳): Selective Augmentation: G2P Bootstrappingによるユニバーサル音声書き起こしの改善
- Authors: Tobias Bystrich, Julia M. Pritzen, Christoph A. Schmidt, Claudia Wich-Reif,
- Abstract要約: 本稿では,ブートストラップ手法Selective Augmentationを提案する。
既存の機能(爆発的な発声)の精度を高め、新しい機能(爆発的な願望)を追加できることを例示します。
評価における本質的な課題について述べるとともに,その成功を判断するための客観的な指標を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of universal automatic phonetic transcription (APT), clean and diverse training transcriptions are required. However, such high-quality data is limited. We propose the bootstrapping approach Selective Augmentation to improve the available training transcriptions by selectively transferring distinctions between languages. Based on the model MultIPA, we exemplarily show that we could increase the accuracy of an existing feature (plosive voicing) and add a new feature (plosive aspiration) by augmenting the existing training data using information from a separate helper language (Hindi). We describe intrinsic challenges of the evaluation and develop objective metrics to determine the success: Voicing accuracy was increased by 17.6% by reducing the number of false positives. Additionally, aspiration recognition was introduced: While the baseline transcribed 0% of German /p, t, k/ as aspirated, our approach transcribed them as aspirated in 61.2% of the cases. Introducing aspiration recognition to APT models allowed for the tenuis class to be successfully reduced by 32.2%, which also reduces the conflations between the test language's plosives.
- Abstract(参考訳): 普遍的自動音素転写(APT)の分野では、クリーンで多様な訓練転写が必要である。
しかし、そのような高品質なデータは限られている。
そこで本稿では,言語間の区別を選択的に伝達することにより,利用可能なトレーニング書き起こしを改善するために,ブートストラップ手法Selective Augmentationを提案する。
MultIPAモデルに基づいて、既存の特徴(爆発的な発声)の精度を高め、異なるヘルパー言語(ヒンディー語)の情報を用いて既存のトレーニングデータを増強することで、新たな特徴(爆発的な願望)を付加できることを実証的に示す。
評価の本質的な課題を解説し、成功を判断するための客観的指標を開発する。 偽陽性の数を減らし、投票精度を17.6%向上させた。
また,吸気認識も導入され,ドイツ/p,t,k/の0%が吸気され,61.2%が吸気された。
APTモデルへの誤認認識の導入により、テヌイ類は32.2%の減少が可能となり、テスト言語間の衝突も軽減された。
関連論文リスト
- Continued Pretraining for Low-Resource Swahili ASR: Achieving State-of-the-Art Performance with Minimal Labeled Data [0.0]
We adapt wav2vec2-bert-2.0 to Swahili Automatic speech Recognition。
20,000のラベル付きサンプルにより、私たちはCommon Voice Swahiliで3.24%のWERを達成した。
論文 参考訳(メタデータ) (2026-03-11T23:45:06Z) - Pronunciation-Lexicon Free Training for Phoneme-based Crosslingual ASR via Joint Stochastic Approximation [12.39451124683428]
本稿では,音素を離散潜在変数として扱う潜在変数モデルに基づく手法を提案する。
多言語事前学習S2Pモデルに基づいて,ポーランド語とインドネシア語でクロスリンガル実験を行った。
10分間しか音素の監督を行ない、新しい手法であるJSA-SPGは5%の誤り率の低減を実現した。
論文 参考訳(メタデータ) (2025-07-04T12:23:22Z) - Benchmarks Underestimate the Readiness of Multi-lingual Dialogue Agents [39.92509218078164]
テキスト内学習が多言語TODに取り組むのに十分であることを示す。
我々は、中国語、英語、フランス語、韓国語、ヒンディー語、およびコードミキシングされたヒンディー語に12のドメインを持つ多言語TODデータセットX-RiSAWOZのアプローチを検証した。
論文 参考訳(メタデータ) (2024-05-28T05:33:13Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE [203.65227947509933]
このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
論文 参考訳(メタデータ) (2022-12-04T15:36:18Z) - Can You Label Less by Using Out-of-Domain Data? Active & Transfer
Learning with Few-shot Instructions [58.69255121795761]
そこで本研究では, 微調整を必要としない, アクティブトランスファーファウショットインストラクション (ATF) アプローチを提案する。
ATFは、事前訓練された言語モデル(PLM)の内部言語知識を活用し、情報の伝達を容易にする。
アクティブラーニングによる少数の対象ドメインサンプルのアノテーションは、転送に有用であるが、アノテーションの取り組みによって影響は減少する。
論文 参考訳(メタデータ) (2022-11-21T19:03:31Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - Discriminative Self-training for Punctuation Prediction [5.398944179152948]
自動音声認識(ASR)出力トランスクリプトの発音予測は、ASRトランスクリプトの可読性向上に重要な役割を果たします。
句読点予測の性能向上には,大量のラベル付き音声書き起こしが必要となることが多い。
重み付き損失と識別ラベル平滑化を用いた識別的自己学習手法を提案する。
論文 参考訳(メタデータ) (2021-04-21T03:32:47Z) - NUVA: A Naming Utterance Verifier for Aphasia Treatment [49.114436579008476]
失語症(PWA)患者の治療介入に対する反応の診断とモニタリングの両立のための画像命名タスクを用いた音声性能評価
本稿では,失語症脳卒中患者の「正しい」と「正しくない」を分類する深層学習要素を組み込んだ発話検証システムであるNUVAについて述べる。
イギリス系英語8ヶ国語でのテストでは、システムの性能精度は83.6%から93.6%の範囲であり、10倍のクロスバリデーション平均は89.5%であった。
論文 参考訳(メタデータ) (2021-02-10T13:00:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。