Fugu-MT 論文翻訳(概要): An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW

論文の概要: An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW

arxiv url: http://arxiv.org/abs/2506.15029v1
Date: Wed, 18 Jun 2025 00:11:06 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-19 19:35:51.509733
Title: An accurate and revised version of optical character recognition-based speech synthesis using LabVIEW
Title（参考訳）: LabVIEWを用いた光学文字認識音声合成の高精度化と修正
Authors: Prateek Mehta, Anasuya Patil,
Abstract要約: 視覚障害のある人は、しばしばNGOが提供する点字の本やオーディオ記録にのみ依存する。本稿では,OCRに基づく音声合成システムの開発について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge extraction through sound is a distinctive property. Visually impaired individuals often rely solely on Braille books and audio recordings provided by NGOs. Due to limitations in these approaches, blind individuals often cannot access books of their choice. Speech is a more effective mode of communication than text for blind and visually impaired persons, as they can easily respond to sounds. This paper presents the development of an accurate, reliable, cost-effective, and user-friendly optical character recognition (OCR)-based speech synthesis system. The OCR-based system has been implemented using Laboratory Virtual Instrument Engineering Workbench (LabVIEW).
Abstract（参考訳）: 音による知識抽出は独特な特性である。視覚障害のある人は、しばしばNGOが提供する点字の本やオーディオ記録にのみ依存する。これらのアプローチの限界のため、盲人はしばしば自分の選択した本にアクセスできない。音声は、視覚障害者や視覚障害者にとってテキストよりも効果的なコミュニケーション手段である。本稿では,OCRに基づく音声合成システムの開発について述べる。 OCRベースのシステムはLabVIEW(LabVIEW)を用いて実装されている。

関連論文リスト

Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
Real-Time Sign Language Gestures to Speech Transcription using Deep Learning [0.0]
本研究は,手話のジェスチャーをテキストおよび可聴音声に変換するために,高度なディープラーニング技術を活用するリアルタイム支援技術ソリューションを提案する。 Sign Language MNISTデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)を使用することで、システムはWebカメラを介してキャプチャされた手の動きを正確に分類する。
論文参考訳（メタデータ） (2025-08-18T08:25:18Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文参考訳（メタデータ） (2023-06-06T08:08:18Z)
Mediapipe and CNNs for Real-Time ASL Gesture Recognition [0.1529342790344802]
本稿では,アメリカ手話(ASL)の動きをリアルタイムに識別するシステムについて述べる。提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。
論文参考訳（メタデータ） (2023-05-09T09:35:45Z)
User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文参考訳（メタデータ） (2023-02-26T21:41:15Z)
Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文参考訳（メタデータ） (2022-10-27T08:10:44Z)
Towards Optimizing OCR for Accessibility [2.1325744957975568]
構造、強調、アイコンなどの視覚的手がかりは、視覚障害者による効率的な情報収集に重要な役割を果たしている。楽しいリスニング体験のための4つのセマンティックな目標を特定し、これらの目標に向かって進むのに役立つ統語的視覚的手がかりを特定する。
論文参考訳（メタデータ） (2022-06-21T11:01:42Z)
Simple and Effective Unsupervised Speech Synthesis [97.56065543192699]
簡単なレシピに基づく教師なし音声合成システムを提案する。本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
論文参考訳（メタデータ） (2022-04-06T00:19:13Z)
Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文参考訳（メタデータ） (2022-03-02T15:58:29Z)
Voice Privacy with Smart Digital Assistants in Educational Settings [1.8369974607582578]
ソースにおける音声プライバシーのための実用的で効率的なフレームワークを設計・評価する。このアプローチでは、話者識別(SID)と音声変換法を組み合わせて、音声を記録するデバイス上でユーザのアイデンティティをランダムに偽装する。我々は、単語誤り率の観点から変換のASR性能を評価し、入力音声の内容を保存する上で、このフレームワークの約束を示す。
論文参考訳（メタデータ） (2021-03-24T19:58:45Z)
An automated approach to mitigate transcription errors in braille texts for the Portuguese language [1.0742675209112622]
本稿では、ポルトガル語の点字テキストにおける転写誤りを軽減させる自動アプローチを提案する。本稿では,その点字表現に基づく単語の最適な対応を提供する辞書と組み合わせた選択関数を提案する。
論文参考訳（メタデータ） (2021-03-05T20:41:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。