論文の概要: Punctuation Restoration for Singaporean Spoken Languages: English, Malay, and Mandarin
- arxiv url: http://arxiv.org/abs/2212.05356v2
- Date: Mon, 02 Dec 2024 00:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 16:55:24.901633
- Title: Punctuation Restoration for Singaporean Spoken Languages: English, Malay, and Mandarin
- Title(参考訳): シンガポールのスポンケン語に対する句読点復元:英語、マレー語、マンダリン語
- Authors: Abhinav Rao, Ho Thi-Nga, Chng Eng-Siong,
- Abstract要約: 本稿では,多言語 ASR システムにより生成された ASR 転写文の句読点復元作業について述べる。
英語、マンダリン語、マレー語がシンガポールで最も人気のある言語である。
我々の知る限りでは、これら3つの言語の句読点復元を同時に行うことができる最初のシステムである。
- 参考スコア(独自算出の注目度): 1.0923877073891446
- License:
- Abstract: This paper presents the work of restoring punctuation for ASR transcripts generated by multilingual ASR systems. The focus languages are English, Mandarin, and Malay which are three of the most popular languages in Singapore. To the best of our knowledge, this is the first system that can tackle punctuation restoration for these three languages simultaneously. Traditional approaches usually treat the task as a sequential labeling task, however, this work adopts a slot-filling approach that predicts the presence and type of punctuation marks at each word boundary. The approach is similar to the Masked-Language Model approach employed during the pre-training stages of BERT, but instead of predicting the masked word, our model predicts masked punctuation. Additionally, we find that using Jieba1 instead of only using the built-in SentencePiece tokenizer of XLM-R can significantly improve the performance of punctuating Mandarin transcripts. Experimental results on English and Mandarin IWSLT2022 datasets and Malay News show that the proposed approach achieved state-of-the-art results for Mandarin with 73.8% F1-score while maintaining a reasonable F1-score for English and Malay, i.e. 74.7% and 78% respectively. Our source code that allows reproducing the results and building a simple web-based application for demonstration purposes is available on Github.
- Abstract(参考訳): 本稿では,多言語 ASR システムによって生成された ASR 転写文の句読点復元作業について述べる。
英語、マンダリン語、マレー語がシンガポールで最も人気のある言語である。
我々の知る限りでは、これら3つの言語の句読点復元を同時に行うことができる最初のシステムである。
従来の手法では、タスクをシーケンシャルなラベリングタスクとして扱うが、この手法では各単語境界における句読点の存在と種類を予測するスロット充足アプローチを採用する。
この手法は, BERTの事前学習段階におけるMasked-Language Modelアプローチと似ているが, マスク付き単語を予測する代わりに, マスク付き句読影を予測する。
さらに,XLM-R の SentencePiece トークンを組み込んだだけでは使用せず Jieba1 を用いることで,マンダリン文字の句読取性能が大幅に向上することがわかった。
英語とマンダリンIWSLT2022データセットとマレーニュースの実験結果によると、提案された手法は、英語とマレー語でそれぞれ73.8%のF1スコア、すなわち74.7%と78%の適度なF1スコアを維持しながら、マンダリンの最先端の結果を達成した。
結果を再現し、デモ目的でシンプルなWebベースのアプリケーションを構築することのできるソースコードはGithubで公開されています。
関連論文リスト
- Multistage Fine-tuning Strategies for Automatic Speech Recognition in Low-resource Languages [0.0]
本稿では,低リソース言語における音声認識(ASR)の性能向上を目的とした,新しい多段階微調整手法を提案する。
本稿では,言語的に類似した言語にモデルを逐次適応させることにより,限られたデジタルリソースを持つ言語を対象としたASRモデルを構築することを目的とする。
私たちは、南インドの西ガーツで約1万人が話していたドラヴィダ語であるマラサール語でこれを実験した。
論文 参考訳(メタデータ) (2024-11-07T09:57:57Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - NU HLT at CMCL 2022 Shared Task: Multilingual and Crosslingual
Prediction of Human Reading Behavior in Universal Language Space [0.0]
このモデルの成功の裏にある秘密は、すべての単語が国際音声アルファベット(IPA)を介して普遍的な言語表現に変換される前処理段階にある。
微調整されたランダムフォレストモデルでは、それぞれ平均1次固定時間(FFDAve)と平均総読解時間(TRTAve)の3.8031と3.9065のMAEスコアで、両方のタスクで最高のパフォーマンスを得た。
論文 参考訳(メタデータ) (2022-02-22T12:39:16Z) - Multilingual AMR Parsing with Noisy Knowledge Distillation [68.01173640691094]
知識蒸留の観点から多言語AMR解析について検討し,既存の英語を教師として利用して多言語AMRを学習し,改善することを目的とする。
蒸留成功の鍵はノイズ入出力と正確な出力である。
論文 参考訳(メタデータ) (2021-09-30T15:13:48Z) - The Effectiveness of Intermediate-Task Training for Code-Switched
Natural Language Understanding [15.54831836850549]
コードスイッチトテキストを用いた3つの異なるNLPタスクの性能向上を導出するための信頼性の高い手法としてバイリンガル中間訓練を提案する。
我々は,従来の最先端システムと比較して,平均精度とF1スコアに対して,7.87%,20.15%,および10.99%の実質的な改善を実現している。
SAの4つの言語ペア(ヒンディー語、スペイン語、タミル語、マラヤラム語)において、一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2021-07-21T08:10:59Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Cross-Lingual Transfer Learning for Complex Word Identification [0.3437656066916039]
複合単語識別(CWI)は、テキスト中の難解な単語を検出することに焦点を当てたタスクである。
我々のアプローチでは、自然言語処理(NLP)タスクのための最先端のソリューションとともに、ゼロショット、ワンショット、および少数ショットの学習技術を使用します。
本研究の目的は,多言語環境下で複雑な単語の特徴を学習できることを示すことである。
論文 参考訳(メタデータ) (2020-10-02T17:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。