論文の概要: An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW
- arxiv url: http://arxiv.org/abs/2506.15029v1
- Date: Wed, 18 Jun 2025 00:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.509733
- Title: An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW
- Title(参考訳): LabVIEWを用いた光学文字認識音声合成の高精度化と修正
- Authors: Prateek Mehta, Anasuya Patil,
- Abstract要約: 視覚障害のある人は、しばしばNGOが提供する点字の本やオーディオ記録にのみ依存する。
本稿では,OCRに基づく音声合成システムの開発について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge extraction through sound is a distinctive property. Visually impaired individuals often rely solely on Braille books and audio recordings provided by NGOs. Due to limitations in these approaches, blind individuals often cannot access books of their choice. Speech is a more effective mode of communication than text for blind and visually impaired persons, as they can easily respond to sounds. This paper presents the development of an accurate, reliable, cost-effective, and user-friendly optical character recognition (OCR)-based speech synthesis system. The OCR-based system has been implemented using Laboratory Virtual Instrument Engineering Workbench (LabVIEW).
- Abstract(参考訳): 音による知識抽出は独特な特性である。
視覚障害のある人は、しばしばNGOが提供する点字の本やオーディオ記録にのみ依存する。
これらのアプローチの限界のため、盲人はしばしば自分の選択した本にアクセスできない。
音声は、視覚障害者や視覚障害者にとってテキストよりも効果的なコミュニケーション手段である。
本稿では,OCRに基づく音声合成システムの開発について述べる。
OCRベースのシステムはLabVIEW(LabVIEW)を用いて実装されている。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - Mediapipe and CNNs for Real-Time ASL Gesture Recognition [0.1529342790344802]
本稿では,アメリカ手話(ASL)の動きをリアルタイムに識別するシステムについて述べる。
提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。
論文 参考訳(メタデータ) (2023-05-09T09:35:45Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Towards Optimizing OCR for Accessibility [2.1325744957975568]
構造、強調、アイコンなどの視覚的手がかりは、視覚障害者による効率的な情報収集に重要な役割を果たしている。
楽しいリスニング体験のための4つのセマンティックな目標を特定し、これらの目標に向かって進むのに役立つ統語的視覚的手がかりを特定する。
論文 参考訳(メタデータ) (2022-06-21T11:01:42Z) - Simple and Effective Unsupervised Speech Synthesis [97.56065543192699]
簡単なレシピに基づく教師なし音声合成システムを提案する。
本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
論文 参考訳(メタデータ) (2022-04-06T00:19:13Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - An automated approach to mitigate transcription errors in braille texts
for the Portuguese language [1.0742675209112622]
本稿では、ポルトガル語の点字テキストにおける転写誤りを軽減させる自動アプローチを提案する。
本稿では,その点字表現に基づく単語の最適な対応を提供する辞書と組み合わせた選択関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。