論文の概要: Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't
- arxiv url: http://arxiv.org/abs/2406.09202v1
- Date: Thu, 13 Jun 2024 14:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 17:14:49.372184
- Title: Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't
- Title(参考訳): 言語複雑度と音声認識精度:orthographic Complexity Hurts, Phonological Complexity does't not
- Authors: Chihiro Taguchi, David Chiang,
- Abstract要約: 本稿では,言語的要因が自動音声認識(ASR)モデルの性能に与える影響について検討する。
15の書き起こしシステムを持つ25言語で、多言語で教師付き事前訓練されたWav2Vec2-XLSR-53を微調整する。
- 参考スコア(独自算出の注目度): 9.944647907864256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate what linguistic factors affect the performance of Automatic Speech Recognition (ASR) models. We hypothesize that orthographic and phonological complexities both degrade accuracy. To examine this, we fine-tune the multilingual self-supervised pretrained model Wav2Vec2-XLSR-53 on 25 languages with 15 writing systems, and we compare their ASR accuracy, number of graphemes, unigram grapheme entropy, logographicity (how much word/morpheme-level information is encoded in the writing system), and number of phonemes. The results demonstrate that orthographic complexities significantly correlate with low ASR accuracy, while phonological complexity shows no significant correlation.
- Abstract(参考訳): 本稿では,言語的要因が自動音声認識(ASR)モデルの性能に与える影響について検討する。
正書法と音韻学の複雑さはどちらも精度を低下させるという仮説を立てる。
そこで本研究では,25言語と15の書記システムを用いた多言語自己教師型モデルWav2Vec2-XLSR-53を微調整し,それらのASR精度,グラフエム数,ユニグラムグラフエントロピー,ログラフ性(記述システムでワード/モーフィムレベルの情報がどの程度符号化されているか),音素数を比較した。
その結果, 音韻複雑度はASRの精度と有意な相関を示したが, 音韻複雑度には有意な相関は認められなかった。
関連論文リスト
- Fine-tuning ChatGPT for Automatic Scoring of Written Scientific Explanations in Chinese [5.388015994761978]
本研究は,中国語で書かれた科学的説明を自動的に収集する,先進的な大規模言語モデルChatGPTの可能性について検討する。
以上の結果から,ChatGPTによる中国の科学的説明の精度向上が期待できることがわかった。
このモデルは、複雑な文構造を持つ低レベルの応答において複雑な推論をオーバーレイし、簡潔な因果推論を用いて高レベルの応答をアンダーレイトする。
論文 参考訳(メタデータ) (2025-01-12T04:10:56Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z) - Cross-Lingual Transfer of Cognitive Processing Complexity [11.939409227407769]
我々は,構造的複雑さの認知指標として,文レベルの視線追跡パターンを用いる。
マルチ言語モデル XLM-RoBERTa は,13言語に対して様々なパターンを予測できることを示す。
論文 参考訳(メタデータ) (2023-02-24T15:48:23Z) - GraphQ IR: Unifying Semantic Parsing of Graph Query Language with
Intermediate Representation [91.27083732371453]
本稿では,グラフクエリ言語,すなわちGraphQ IRに対する統合中間表現(IR)を提案する。
セマンティックギャップをブリッジするIRの自然言語のような表現と、グラフ構造を維持するための正式に定義された構文によって、ニューラルネットワークによるセマンティックパーシングは、ユーザクエリをより効果的にGraphQ IRに変換することができる。
我々のアプローチは、KQA Pro、Overnight、MetaQAにおける最先端のパフォーマンスを一貫して達成できます。
論文 参考訳(メタデータ) (2022-05-24T13:59:53Z) - Learning to pronounce as measuring cross lingual joint
orthography-phonology complexity [0.0]
本稿では,グラファイム対音素(g2p)の音素翻訳のタスクをモデル化することにより,言語が「発音しにくい」理由について検討する。
発音の学習に関して、より簡単で難しい言語を区別する特定の特徴が浮かび上がっていることを示す。
論文 参考訳(メタデータ) (2022-01-29T14:44:39Z) - Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。
本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。
提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文 参考訳(メタデータ) (2021-09-20T10:41:39Z) - LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for
Lexical Complexity Prediction [4.86331990243181]
本稿では,チームLCP-RITによるSemEval-2021 Task 1: Lexical Complexity Prediction (LCP)の提出について述べる。
本システムでは,ロジスティック回帰と幅広い言語的特徴を用いて,このデータセットにおける単一単語の複雑さを予測する。
結果は平均絶対誤差,平均二乗誤差,ピアソン相関,スピアマン相関で評価した。
論文 参考訳(メタデータ) (2021-05-18T18:55:04Z) - Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。
係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文 参考訳(メタデータ) (2020-10-05T17:27:31Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。