論文の概要: BiPhone: Modeling Inter Language Phonetic Influences in Text
- arxiv url: http://arxiv.org/abs/2307.03322v1
- Date: Thu, 6 Jul 2023 22:31:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 13:46:37.781523
- Title: BiPhone: Modeling Inter Language Phonetic Influences in Text
- Title(参考訳): BiPhone:テキストにおける言語間音声の影響のモデル化
- Authors: Abhirut Gupta, Ananya B. Sai, Richard Sproat, Yuri Vasilevski, James
S. Ren, Ambarish Jash, Sukhdeep S. Sodhi, and Aravindan Raghuveer
- Abstract要約: テクノロジーの非対称性のため、リテラシーの低い言語でWebを使わざるを得ない人は多い。
そのようなユーザから第2言語(L2)で書かれたテキストには、ネイティブ言語(L1)の影響を受けている大量のエラーが含まれていることが多い。
本稿ではL1とL2のペアに対して音素の混同(L2ではL1話者が強調される可能性が高い)を抽出する手法を提案する。
これらの混乱を生成モデル (Bi-Phone) にプラグインし、合成により劣化したL2テキストを生成する。
- 参考スコア(独自算出の注目度): 12.405907573933378
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A large number of people are forced to use the Web in a language they have
low literacy in due to technology asymmetries. Written text in the second
language (L2) from such users often contains a large number of errors that are
influenced by their native language (L1). We propose a method to mine phoneme
confusions (sounds in L2 that an L1 speaker is likely to conflate) for pairs of
L1 and L2. These confusions are then plugged into a generative model (Bi-Phone)
for synthetically producing corrupted L2 text. Through human evaluations, we
show that Bi-Phone generates plausible corruptions that differ across L1s and
also have widespread coverage on the Web. We also corrupt the popular language
understanding benchmark SuperGLUE with our technique (FunGLUE for Phonetically
Noised GLUE) and show that SoTA language understating models perform poorly. We
also introduce a new phoneme prediction pre-training task which helps byte
models to recover performance close to SuperGLUE. Finally, we also release the
FunGLUE benchmark to promote further research in phonetically robust language
models. To the best of our knowledge, FunGLUE is the first benchmark to
introduce L1-L2 interactions in text.
- Abstract(参考訳): 多くの人々が、テクノロジーの非対称性のために、リテラシーの低い言語でwebを使わざるを得ない。
このようなユーザから第2言語(L2)で書かれたテキストには、ネイティブ言語(L1)の影響を受けている大量のエラーが含まれていることが多い。
本稿ではL1とL2のペアに対して音素混同(L2ではL1話者が強調される可能性が高い)を抽出する方法を提案する。
これらの混乱を生成モデル(Bi-Phone)にプラグインし、合成されたL2テキストを生成する。
人的評価を通して, ビフォネはL1ごとに異なる, ウェブ上で広く報道される, もっともらしい汚職を発生させることを示す。
また,一般的な言語理解ベンチマークであるSuperGLUEを,我々の手法(FunGLUE for Phonetically Noised GLUE)で劣化させ,SoTA言語基盤モデルの性能が低いことを示す。
我々はまた,SuperGLUEに近い性能の回復を支援する新しい音素予測事前学習タスクも導入した。
最後に,音声にロバストな言語モデルのさらなる研究を促進するために,funglueベンチマークもリリースします。
我々の知る限り、FunGLUEはテキストにL1-L2インタラクションを導入した最初のベンチマークです。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - On Bilingual Lexicon Induction with Large Language Models [81.6546357879259]
本稿では,バイリンガル辞書開発における次世代大規模言語モデルの可能性について検討する。
本研究では,1) 教師なしBLIにおけるゼロショットプロンプトと,2) シード翻訳ペアの組による少数ショットインコンテキストプロンプトについて検討する。
私たちの研究は、テキストからテキストへのmLLMの強力なBLI機能を示す最初のものです。
論文 参考訳(メタデータ) (2023-10-21T12:43:27Z) - L1-aware Multilingual Mispronunciation Detection Framework [10.15106073866792]
本稿では,L1-Aware 音声表現に富んだ多言語MDDアーキテクチャ L1-MultiMDDを提案する。
入力信号とその対応する基準音素シーケンスに基づいて、エンドツーエンドの音声エンコーダを訓練する。
実験では、L1-MultiMDDフレームワークが、L2-ARTIC、LATIC、AraVoiceL2v2と、EpaDBとSpeechocean762データセットの両方で有効であることを示した。
論文 参考訳(メタデータ) (2023-09-14T13:53:17Z) - The Effects of Input Type and Pronunciation Dictionary Usage in Transfer
Learning for Low-Resource Text-to-Speech [1.1852406625172218]
低音源言語(LRL)の音声合成における音声ラベルと音声特徴を言語間変換学習の入力として比較する。
FastSpeech 2 と LRL West Frisian を用いた実験では,音声の明瞭さと自然さの両面で,音声による特徴が優れていた。
論文 参考訳(メタデータ) (2023-06-01T10:42:56Z) - SLABERT Talk Pretty One Day: Modeling Second Language Acquisition with
BERT [0.0]
言語間移動は、話者の母語の言語構造が外国語の獲得に与える影響である。
我々はNLP文献が陰性移行現象に十分な注意を払っていないことを発見した。
そこで本研究では,TransformerベースのSLAモデルを用いたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-05-31T06:22:07Z) - Improving Automatic Speech Recognition for Non-Native English with
Transfer Learning and Language Model Decoding [6.68194398006805]
訓練済みwav2vec 2.0モデル citebaevski 2020wav2vec,xu2021self のL1およびL2訓練条件下での微調整について検討した。
We found that that the large self-trained wav2vec 2.0 may be internalizing enough decoding knowledge for clean L1 speech, this is not hold for L2 speech。
論文 参考訳(メタデータ) (2022-02-10T18:13:32Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。