論文の概要: Morphologically-Informed Tokenizers for Languages with Non-Concatenative Morphology: A case study of Yoloxóchtil Mixtec ASR
- arxiv url: http://arxiv.org/abs/2512.06169v1
- Date: Fri, 05 Dec 2025 21:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.214134
- Title: Morphologically-Informed Tokenizers for Languages with Non-Concatenative Morphology: A case study of Yoloxóchtil Mixtec ASR
- Title(参考訳): 非コンカニカルな形態をもつ言語に対する形態的インフォームド・トケナイザー : Yoloxóchtil Mixtec ASR を事例として
- Authors: Chris Crawford,
- Abstract要約: 本稿では,ASRとテキスト・ベース・シーケンス・ツー・シーケンス・ツールを組み合わせたYoloxchitl Mixtec (YM) 音声コーパスのインターリニア・グロースアノテーションを,形態的インフォームド・トークンーザを用いて支援し,合理化する影響について検討する。
本稿では,音節形態に関する情報を可能な限り保存し,非線形に単語を分離する2つの新しいトークン化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates the impact of using morphologically-informed tokenizers to aid and streamline the interlinear gloss annotation of an audio corpus of Yoloxóchitl Mixtec (YM) using a combination of ASR and text-based sequence-to-sequence tools, with the goal of improving efficiency while reducing the workload of a human annotator. We present two novel tokenization schemes that separate words in a nonlinear manner, preserving information about tonal morphology as much as possible. One of these approaches, a Segment and Melody tokenizer, simply extracts the tones without predicting segmentation. The other, a Sequence of Processes tokenizer, predicts segmentation for the words, which could allow an end-to-end ASR system to produce segmented and unsegmented transcriptions in a single pass. We find that these novel tokenizers are competitive with BPE and Unigram models, and the Segment-and-Melody model outperforms traditional tokenizers in terms of word error rate but does not reach the same character error rate. In addition, we analyze tokenizers on morphological and information-theoretic metrics to find predictive correlations with downstream performance. Our results suggest that nonlinear tokenizers designed specifically for the non-concatenative morphology of a language are competitive with conventional BPE and Unigram models for ASR. Further research will be necessary to determine the applicability of these tokenizers in downstream processing tasks.
- Abstract(参考訳): 本稿では,ASRとテキストベースのシークエンス・ツー・シーケンス・ツールの組み合わせを用いて,ヨロクソチトール・ミックステック(YM)音声コーパスのインターリニア・グロースアノテーションを,ヒトのアノテータの作業負荷を低減しつつ効率を向上させることを目的として,形態的インフォームド・トークンーザを用いて支援し,合理化することによる影響について検討する。
本稿では,音節形態に関する情報を可能な限り保存し,非線形に単語を分離する2つの新しいトークン化手法を提案する。
これらのアプローチの1つ、セグメンテーションとメロディトークンライザは、単にセグメンテーションを予測せずにトーンを抽出する。
もうひとつは、Sequence of Processesトークンライザで、単語のセグメンテーションを予測することで、エンドツーエンドのASRシステムが単一のパスでセグメンテーションされた未分割の書き起こしを生成することができる。
これらの新規なトークン化器はBPEやUnigramモデルと競合し,Segment-and-Melodyモデルは単語誤り率において従来のトークン化器よりも優れるが,同じ文字誤り率には達しない。
さらに,定型的および情報理論的指標のトークン化器を解析し,下流の性能と予測的相関を求める。
この結果から,非コンカレントな言語形態に特化して設計された非線形トークン化器は,従来のBPEやUnigramのASRモデルと競合することが示唆された。
下流処理タスクにおけるこれらのトークン化剤の適用性を決定するためには、さらなる研究が必要である。
関連論文リスト
- Rethinking Tokenization for Rich Morphology: The Dominance of Unigram over BPE and Morphological Alignment [8.097278579432908]
トークン化アルゴリズムの選択はパフォーマンスに影響する最も重要な要因であり、Unigramベースのトークン化アルゴリズムは、ほとんどの設定において一貫してBPEを上回っている。
より優れた形態的アライメントは、テキスト分類や構造予測タスクのパフォーマンスと適度で正の相関を示すが、その影響はトークン化アルゴリズムに準じる。
論文 参考訳(メタデータ) (2025-08-11T19:23:59Z) - Training-Free Tokenizer Transplantation via Orthogonal Matching Pursuit [45.18582668677648]
大規模言語モデルにおいて,トークン化剤を移植するためのトレーニング不要な手法を提案する。
それぞれの語彙外トークンを,共有トークンの疎線形結合として近似する。
我々は,OMPがベースモデルの性能を最良にゼロショット保存できることを示す。
論文 参考訳(メタデータ) (2025-06-07T00:51:27Z) - Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
We present MELLE, a novel continuous-valued token based language modeling approach for text-to-speech synthesis (TTS)。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
MELLEは、サンプリングベクトル量子化符号の固有の欠陥を回避し、ロバスト性問題を緩和する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文 参考訳(メタデータ) (2022-05-05T14:23:27Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Sequence-Level Mixed Sample Data Augmentation [119.94667752029143]
本研究は、シーケンス対シーケンス問題に対するニューラルモデルにおける合成行動を促進するための単純なデータ拡張手法を提案する。
我々の手法であるSeqMixは、トレーニングセットから入力/出力シーケンスをソフトに結合することで、新しい合成例を作成する。
論文 参考訳(メタデータ) (2020-11-18T02:18:04Z) - Neural Data-to-Text Generation via Jointly Learning the Segmentation and
Correspondence [48.765579605145454]
対象のテキストを断片単位に明示的に分割し,それらのデータ対応と整合させることを提案する。
結果として生じるアーキテクチャは、ニューラルアテンションモデルと同じ表現力を維持している。
E2EとWebNLGのベンチマークでは、提案モデルがニューラルアテンションよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2020-05-03T14:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。