論文の概要: Optical Braille Recognition Using Object Detection CNN
- arxiv url: http://arxiv.org/abs/2012.12412v1
- Date: Tue, 22 Dec 2020 23:22:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 07:27:06.877457
- Title: Optical Braille Recognition Using Object Detection CNN
- Title(参考訳): 物体検出CNNを用いた光点字認識
- Authors: Ilya G. Ovodov
- Abstract要約: 本稿では,物体検出畳み込みニューラルネットワークを用いて,点字文字全体を同時に検出する光点字認識手法を提案する。
これは、スマートフォンのカメラで撮影されている点字テキストを認識できるようにします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes an optical Braille recognition method that uses an object
detection convolutional neural network to detect whole Braille characters at
once. The proposed algorithm is robust to the deformation of the page shown in
the image and perspective distortions. It makes it usable for recognition of
Braille texts being shoot on a smartphone camera, including bowed pages and
perspective distorted images. The proposed algorithm shows high performance and
accuracy compared to existing methods. We also introduce a new "Angelina
Braille Images Dataset" containing 240 annotated photos of Braille texts. The
proposed algorithm and dataset are available at GitHub.
- Abstract(参考訳): 本稿では,物体検出畳み込みニューラルネットワークを用いて,点字文字全体を同時に検出する光点字認識手法を提案する。
提案アルゴリズムは,画像および視点歪みに示されるページの変形に対して頑健である。
これは、スマートフォンのカメラで撮影されている点字の認識に役立ちます。
提案アルゴリズムは既存の手法と比較して高い性能と精度を示す。
また,新たに240枚の点字写真を含む「Angelina Braille Images Dataset」を導入する。
提案されたアルゴリズムとデータセットはGitHubで公開されている。
関連論文リスト
- Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Vision-Braille: An End-to-End Tool for Chinese Braille Image-to-Text Translation [12.027431535689717]
視覚障害者は、読み書きに点字しか使えない大規模なグループである。
点字作家はしばしば音色を省略して空間を節約し、同じ子音と母音の点字が中国語に翻訳されると混乱する。
このプロジェクトは、初めて公開された点字翻訳システムである。
論文 参考訳(メタデータ) (2024-07-08T15:51:37Z) - Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - Optical Braille Recognition using Circular Hough Transform [0.0]
本研究の目的は、盲目の学生の個人文書を翻訳することで、学術機関におけるコミュニケーションギャップを強化することである。
ハフ変換に基づくドット検出機構を提案する。
検出されたドットは、距離ベースのクラスタリングアルゴリズムを使用して点字セルにクラスタリングされる。
54点字スクリプトのデータセットに対するこの手法の包括的な評価は、98.71%の精度で行われている。
論文 参考訳(メタデータ) (2021-07-02T12:15:24Z) - An automated approach to mitigate transcription errors in braille texts
for the Portuguese language [1.0742675209112622]
本稿では、ポルトガル語の点字テキストにおける転写誤りを軽減させる自動アプローチを提案する。
本稿では,その点字表現に基づく単語の最適な対応を提供する辞書と組み合わせた選択関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:41:14Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Braille to Text Translation for Bengali Language: A Geometric Approach [0.0]
一般人は点字を読めない。だから教師や親類は、学習を手伝うのが難しい。
ここでは、これらの触覚アルファベットを画像化し、それらをプレーンテキストに変換する点字 to Text Translatorを提案する。
この手法は点字認識において97.25%の精度が得られる。
論文 参考訳(メタデータ) (2020-12-02T19:57:29Z) - SuperOCR: A Conversion from Optical Character Recognition to Image
Captioning [14.746869920517653]
文字の位置を検知することなく文字を認識する手法を提案する。
これはOCRタスクをイメージキャプションタスクに変換することで実現される。
実験の結果,提案手法は,ライセンスプレート認識と水位計文字認識の両タスクにおいて,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-11-21T06:40:04Z) - Lightweight Generative Adversarial Networks for Text-Guided Image
Manipulation [139.41321867508722]
本稿では,自然言語記述を用いた効率的な画像操作のための軽量な生成対向ネットワークを提案する。
単語レベルでの微粒な学習フィードバックを提供する新しい単語レベル判別器を提案する。
論文 参考訳(メタデータ) (2020-10-23T02:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。