Fugu-MT 論文翻訳(概要): Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't

論文の概要: Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't

arxiv url: http://arxiv.org/abs/2406.09202v1
Date: Thu, 13 Jun 2024 14:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-14 17:14:49.372184
Title: Language Complexity and Speech Recognition Accuracy: Orthographic Complexity Hurts, Phonological Complexity Doesn't
Title（参考訳）: 言語複雑度と音声認識精度:orthographic Complexity Hurts, Phonological Complexity does't not
Authors: Chihiro Taguchi, David Chiang,
Abstract要約: 本稿では,言語的要因が自動音声認識(ASR)モデルの性能に与える影響について検討する。 15の書き起こしシステムを持つ25言語で、多言語で教師付き事前訓練されたWav2Vec2-XLSR-53を微調整する。
参考スコア（独自算出の注目度）: 9.944647907864256
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate what linguistic factors affect the performance of Automatic Speech Recognition (ASR) models. We hypothesize that orthographic and phonological complexities both degrade accuracy. To examine this, we fine-tune the multilingual self-supervised pretrained model Wav2Vec2-XLSR-53 on 25 languages with 15 writing systems, and we compare their ASR accuracy, number of graphemes, unigram grapheme entropy, logographicity (how much word/morpheme-level information is encoded in the writing system), and number of phonemes. The results demonstrate that orthographic complexities significantly correlate with low ASR accuracy, while phonological complexity shows no significant correlation.
Abstract（参考訳）: 本稿では,言語的要因が自動音声認識(ASR)モデルの性能に与える影響について検討する。正書法と音韻学の複雑さはどちらも精度を低下させるという仮説を立てる。そこで本研究では,25言語と15の書記システムを用いた多言語自己教師型モデルWav2Vec2-XLSR-53を微調整し,それらのASR精度,グラフエム数,ユニグラムグラフエントロピー,ログラフ性(記述システムでワード/モーフィムレベルの情報がどの程度符号化されているか),音素数を比較した。その結果, 音韻複雑度はASRの精度と有意な相関を示したが, 音韻複雑度には有意な相関は認められなかった。

関連論文リスト

Associative Syntax and Maximal Repetitions reveal context-dependent complexity in fruit bat communication [0.0]
本研究では, 果実バス発声の離散性, 構文, 時間構造を推定するための教師なし手法を提案する。コミュニケーションパターンの複雑さを行動コンテキストと関連づけて評価する。
論文参考訳（メタデータ） (2025-11-30T19:01:59Z)
Prominence-aware automatic speech recognition for conversational speech [5.908471365011944]
本稿では,音声認識の優位性に着目した音声認識について検討する。これは、対話型ドイツ語の発音検出と音声認識を組み合わせたものである。変換器ベースのモデルが韻律情報を効果的に符号化できることが示される。
論文参考訳（メタデータ） (2025-09-12T10:18:38Z)
VALLR: Visual ASR Language Model for Lip Reading [28.561566996686484]
リップレディング(Lip Reading)または視覚自動音声認識(Visual Automatic Speech Recognition)は、視覚的手がかりからのみ音声言語の解釈を必要とする複雑なタスクである。視覚自動音声認識(V-ASR)のための新しい2段階音素中心のフレームワークを提案する。まず,CTCヘッドを用いたビデオ変換器を用いて,視覚入力から音素のコンパクトな列を予測する。この音素出力は、コヒーレントな単語と文を再構成する微調整された大言語モデル(LLM)への入力として機能する。
論文参考訳（メタデータ） (2025-03-27T11:52:08Z)
Automatic Speech Recognition for Non-Native English: Accuracy and Disfluency Handling [0.0]
本研究は,L2-ARCTICコーパスからの録音を用いて,英語アクセント音声の最先端5つの音声認識システムについて検討した。読み上げ音声では,Whisper と AssemblyAI がそれぞれ 0.054 と 0.056 のマッチング誤り率 (MER) で最高の精度を達成した。自発音声では,平均MERは0.063。
論文参考訳（メタデータ） (2025-03-10T05:09:44Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
MulCogBench: A Multi-modal Cognitive Benchmark Dataset for Evaluating Chinese and English Computational Language Models [44.74364661212373]
本稿では、中国語と英語のネイティブ参加者から収集した認知ベンチマークであるMulCogBenchを提案する。主観的意味評価、視線追跡、機能的磁気共鳴画像(fMRI)、脳磁図(MEG)など、さまざまな認知データを含んでいる。その結果、言語モデルは人間の認知データと大きな類似性を共有しており、類似性パターンはデータモダリティと刺激の複雑さによって変調されることがわかった。
論文参考訳（メタデータ） (2024-03-02T07:49:57Z)
Linguistic More: Taking a Further Step toward Efficient and Accurate Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文参考訳（メタデータ） (2023-05-09T02:52:47Z)
Cross-Lingual Transfer of Cognitive Processing Complexity [11.939409227407769]
我々は,構造的複雑さの認知指標として,文レベルの視線追跡パターンを用いる。マルチ言語モデル XLM-RoBERTa は,13言語に対して様々なパターンを予測できることを示す。
論文参考訳（メタデータ） (2023-02-24T15:48:23Z)
GraphQ IR: Unifying Semantic Parsing of Graph Query Language with Intermediate Representation [91.27083732371453]
本稿では,グラフクエリ言語,すなわちGraphQ IRに対する統合中間表現(IR)を提案する。セマンティックギャップをブリッジするIRの自然言語のような表現と、グラフ構造を維持するための正式に定義された構文によって、ニューラルネットワークによるセマンティックパーシングは、ユーザクエリをより効果的にGraphQ IRに変換することができる。我々のアプローチは、KQA Pro、Overnight、MetaQAにおける最先端のパフォーマンスを一貫して達成できます。
論文参考訳（メタデータ） (2022-05-24T13:59:53Z)
Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文参考訳（メタデータ） (2022-04-01T14:25:19Z)
Learning to pronounce as measuring cross lingual joint orthography-phonology complexity [0.0]
本稿では,グラファイム対音素(g2p)の音素翻訳のタスクをモデル化することにより,言語が「発音しにくい」理由について検討する。発音の学習に関して、より簡単で難しい言語を区別する特定の特徴が浮かび上がっていることを示す。
論文参考訳（メタデータ） (2022-01-29T14:44:39Z)
Influence of ASR and Language Model on Alzheimer's Disease Detection [2.4698886064068555]
画像から参加者の音声記述を転写するために,SotA ASRシステムを用いて分析する。本研究では,ASRから仮説を復号化するための言語モデルが欠如していることから,単語の非標準列を補正する言語モデルの影響について検討する。提案システムは、韻律と声質に基づく音響と、最も一般的な単語の最初の出現に基づく語彙的特徴を組み合わせる。
論文参考訳（メタデータ） (2021-09-20T10:41:39Z)
LCP-RIT at SemEval-2021 Task 1: Exploring Linguistic Features for Lexical Complexity Prediction [4.86331990243181]
本稿では,チームLCP-RITによるSemEval-2021 Task 1: Lexical Complexity Prediction (LCP)の提出について述べる。本システムでは,ロジスティック回帰と幅広い言語的特徴を用いて,このデータセットにおける単一単語の複雑さを予測する。結果は平均絶対誤差,平均二乗誤差,ピアソン相関,スピアマン相関で評価した。
論文参考訳（メタデータ） (2021-05-18T18:55:04Z)
Pareto Probing: Trading Off Accuracy for Complexity [87.09294772742737]
我々は,プローブの複雑性と性能の基本的なトレードオフを反映したプローブ計量について論じる。係り受け解析による実験により,文脈表現と非文脈表現の統語的知識の幅広いギャップが明らかとなった。
論文参考訳（メタデータ） (2020-10-05T17:27:31Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)
Probing Linguistic Features of Sentence-Level Representations in Neural Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文参考訳（メタデータ） (2020-04-17T09:17:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。