論文の概要: An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW
- arxiv url: http://arxiv.org/abs/2506.15029v1
- Date: Wed, 18 Jun 2025 00:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.509733
- Title: An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW
- Title(参考訳): LabVIEWを用いた光学文字認識音声合成の高精度化と修正
- Authors: Prateek Mehta, Anasuya Patil,
- Abstract要約: 視覚障害のある人は、しばしばNGOが提供する点字の本やオーディオ記録にのみ依存する。
本稿では,OCRに基づく音声合成システムの開発について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge extraction through sound is a distinctive property. Visually impaired individuals often rely solely on Braille books and audio recordings provided by NGOs. Due to limitations in these approaches, blind individuals often cannot access books of their choice. Speech is a more effective mode of communication than text for blind and visually impaired persons, as they can easily respond to sounds. This paper presents the development of an accurate, reliable, cost-effective, and user-friendly optical character recognition (OCR)-based speech synthesis system. The OCR-based system has been implemented using Laboratory Virtual Instrument Engineering Workbench (LabVIEW).
- Abstract(参考訳): 音による知識抽出は独特な特性である。
視覚障害のある人は、しばしばNGOが提供する点字の本やオーディオ記録にのみ依存する。
これらのアプローチの限界のため、盲人はしばしば自分の選択した本にアクセスできない。
音声は、視覚障害者や視覚障害者にとってテキストよりも効果的なコミュニケーション手段である。
本稿では,OCRに基づく音声合成システムの開発について述べる。
OCRベースのシステムはLabVIEW(LabVIEW)を用いて実装されている。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - Mediapipe and CNNs for Real-Time ASL Gesture Recognition [0.1529342790344802]
本稿では,アメリカ手話(ASL)の動きをリアルタイムに識別するシステムについて述べる。
提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。
論文 参考訳(メタデータ) (2023-05-09T09:35:45Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Towards Optimizing OCR for Accessibility [2.1325744957975568]
構造、強調、アイコンなどの視覚的手がかりは、視覚障害者による効率的な情報収集に重要な役割を果たしている。
楽しいリスニング体験のための4つのセマンティックな目標を特定し、これらの目標に向かって進むのに役立つ統語的視覚的手がかりを特定する。
論文 参考訳(メタデータ) (2022-06-21T11:01:42Z) - Simple and Effective Unsupervised Speech Synthesis [97.56065543192699]
簡単なレシピに基づく教師なし音声合成システムを提案する。
本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
論文 参考訳(メタデータ) (2022-04-06T00:19:13Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Voice Privacy with Smart Digital Assistants in Educational Settings [1.8369974607582578]
ソースにおける音声プライバシーのための実用的で効率的なフレームワークを設計・評価する。
このアプローチでは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上でユーザのアイデンティティをランダムに偽装する。
我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
論文 参考訳(メタデータ) (2021-03-24T19:58:45Z) - An automated approach to mitigate transcription errors in braille texts
for the Portuguese language [1.0742675209112622]
本稿では、ポルトガル語の点字テキストにおける転写誤りを軽減させる自動アプローチを提案する。
本稿では,その点字表現に基づく単語の最適な対応を提供する辞書と組み合わせた選択関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。