論文の概要: A Low-Resource Speech-Driven NLP Pipeline for Sinhala Dyslexia Assistance
- arxiv url: http://arxiv.org/abs/2510.04750v1
- Date: Mon, 06 Oct 2025 12:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.847132
- Title: A Low-Resource Speech-Driven NLP Pipeline for Sinhala Dyslexia Assistance
- Title(参考訳): Sinhala Dyslexia 支援のための低リソース音声駆動型NLPパイプライン
- Authors: Peshala Perera, Deshan Sumanathilaka,
- Abstract要約: Sinhala 話者の摂食障害に特化して設計された補助システムについて述べる。
このシステムはWhisperを音声からテキストへの変換に利用し、SinBERTはSinhalaのために訓練されたオープンソースで微調整されたBERTモデルであり、mT5とMistralを併用して修正テキストを生成する。
シンハラ語の限られたデータセットによって生じる課題にもかかわらず、システムは0.66の転写精度と0.7の補正精度をシステム全体の精度0.65で達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dyslexia in adults remains an under-researched and under-served area, particularly in non-English-speaking contexts, despite its significant impact on personal and professional lives. This work addresses that gap by focusing on Sinhala, a low-resource language with limited tools for linguistic accessibility. We present an assistive system explicitly designed for Sinhala-speaking adults with dyslexia. The system integrates Whisper for speech-to-text conversion, SinBERT, an open-sourced fine-tuned BERT model trained for Sinhala to identify common dyslexic errors, and a combined mT5 and Mistral-based model to generate corrected text. Finally, the output is converted back to speech using gTTS, creating a complete multimodal feedback loop. Despite the challenges posed by limited Sinhala-language datasets, the system achieves 0.66 transcription accuracy and 0.7 correction accuracy with 0.65 overall system accuracy. These results demonstrate both the feasibility and effectiveness of the approach. Ultimately, this work highlights the importance of inclusive Natural Language Processing (NLP) technologies in underrepresented languages and showcases a practical
- Abstract(参考訳): 成人のDyslexiaは、特に非英語の文脈では、個人的および専門的な生活に大きな影響を与えているにもかかわらず、未調査で未治療領域である。
この研究は、言語アクセシビリティのための限られたツールを備えた低リソース言語であるSinhalaに焦点を当てることで、このギャップに対処する。
Sinhala 話者の摂食障害に対する支援システムについて検討した。
このシステムはWhisperを音声からテキストへの変換に利用し、SinBERTはSinhalaのために訓練されたオープンソースで微調整されたBERTモデルであり、mT5とMistralを併用して修正テキストを生成する。
最後に、出力はgTTSを使用して音声に変換され、完全なマルチモーダルフィードバックループを生成する。
シンハラ語の限られたデータセットによって生じる課題にもかかわらず、システムは0.66の転写精度と0.7の補正精度をシステム全体の精度0.65で達成している。
これらの結果は,アプローチの実現可能性と有効性の両方を示している。
最終的に、この研究は、表現不足言語における包括的自然言語処理(NLP)技術の重要性を強調し、実用性を示す。
関連論文リスト
- Supporting SENCOTEN Language Documentation Efforts with Automatic Speech Recognition [4.702636570667311]
バンクーバー島南部のサアニチ半島で話されているセノチェン語は、活発な言語再生の努力の最中である。
そこで本研究では,音声合成システムからの音声データを利用したASR駆動型文書パイプラインを提案する。
n-gram言語モデルは、利用可能なデータの使用を最大化するために、浅い融合やn-best復元によっても組み込まれている。
論文 参考訳(メタデータ) (2025-07-14T21:44:35Z) - Smooth Operators: LLMs Translating Imperfect Hints into Disfluency-Rich Transcripts [5.439020425819001]
大規模言語モデル(LLM)は、語彙入力と非語彙入力の両方を処理できる汎用的な学習者である。
本稿では, タイムスタンプを付加した明示的なトークンとして, 完全注釈付き不フルな書き起こしを生成するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-23T11:04:20Z) - LESS: Large Language Model Enhanced Semi-Supervised Learning for Speech Foundational Models Using in-the-wild Data [5.021795689551854]
LESS (Large Language Model Enhanced Semi-supervised Learning) は、Large Language Models (LLMs) を用いて、アプリ内で生成された擬似ラベルを補正する汎用的なフレームワークである。
マンダリンASRとスペイン語と英語のAST評価で、LESSは一貫して利益を上げている。
私たちはこのレシピをオープンソースとしてリリースし、この分野のさらなる研究を支援しています。
論文 参考訳(メタデータ) (2025-06-05T03:00:04Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Unlikelihood Tuning on Negative Samples Amazingly Improves Zero-Shot
Translation [79.96416609433724]
Zero-shot Translation (ZST)は、トレーニングデータにおいて、目に見えない言語ペア間の翻訳を目的としている。
推論中にゼロショット言語マッピングをガイドする一般的な方法は、ソースとターゲット言語IDを意図的に挿入することである。
近年の研究では、言語IDが時折ZSTタスクのナビゲートに失敗し、ターゲット外問題に悩まされることが示されている。
論文 参考訳(メタデータ) (2023-09-28T17:02:36Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。