論文の概要: Baybayin Character Instance Detection
- arxiv url: http://arxiv.org/abs/2304.09469v1
- Date: Wed, 19 Apr 2023 07:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 15:20:48.621411
- Title: Baybayin Character Instance Detection
- Title(参考訳): baybayin文字インスタンス検出
- Authors: Adriel Isaiah V. Amoguis, Gian Joseph B. Madrid, Benito Miguel D.
Flores IV, Macario O. Cordel II
- Abstract要約: 本稿では,Baybayinスクリプトを読めない個人を支援するコンピュータビジョンシステムを提案する。
最先端の畳み込みニューラルネットワーク(CNN)を用いたBaybayin光文字インスタンスと分類モデルを提案する。
提案手法はBaybayinの最初のエンドツーエンド文字検出モデルであり,mAP50スコアは93.30%,mAP50-95スコアは80.50%,F1スコアは84.84%である。
- 参考スコア(独自算出の注目度): 0.8602553195689513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Philippine Government recently passed the "National Writing System Act,"
which promotes using Baybayin in Philippine texts. In support of this effort to
promote the use of Baybayin, we present a computer vision system which can aid
individuals who cannot easily read Baybayin script. In this paper, we survey
the existing methods of identifying Baybayin scripts using computer vision and
machine learning techniques and discuss their capabilities and limitations.
Further, we propose a Baybayin Optical Character Instance Segmentation and
Classification model using state-of-the-art Convolutional Neural Networks
(CNNs) that detect Baybayin character instances in an image then outputs the
Latin alphabet counterparts of each character instance in the image. Most
existing systems are limited to character-level image classification and often
misclassify or not natively support characters with diacritics. In addition,
these existing models often have specific input requirements that limit it to
classifying Baybayin text in a controlled setting, such as limitations in
clarity and contrast, among others. To our knowledge, our proposed method is
the first end-to-end character instance detection model for Baybayin, achieving
a mAP50 score of 93.30%, mAP50-95 score of 80.50%, and F1-Score of 84.84%.
- Abstract(参考訳): フィリピン政府は最近、フィリピンのテキストにbaybayinを使用することを促進する「national writing system act」を可決した。
ベイバインの活用を促進するために,ベイバインのスクリプトを読めない個人を支援するコンピュータビジョンシステムを提案する。
本稿では,コンピュータビジョンと機械学習技術を用いたBaybayinスクリプトの同定手法について検討し,その機能と限界について考察する。
さらに,画像中のBaybayin文字インスタンスを検出し,その画像中の各文字インスタンスのラテンアルファベット対応を出力する,最先端の畳み込みニューラルネットワーク(CNN)を用いたBaybayin光文字インスタンス分割分類モデルを提案する。
既存のシステムの多くは文字レベルの画像分類に限られており、しばしばダイアクリティカルな文字を誤分類するか、ネイティブにサポートしていない。
さらに、これらの既存のモデルは特定の入力要求を持ち、ベイバインのテキストを、明瞭さやコントラストの制限など、制御された設定で分類することに制限することが多い。
提案手法はBaybayinの最初のエンドツーエンド文字検出モデルであり,mAP50スコアは93.30%,mAP50-95スコアは80.50%,F1スコアは84.84%である。
関連論文リスト
- GraspMamba: A Mamba-based Language-driven Grasp Detection Framework with Hierarchical Feature Learning [9.168273931848173]
この課題に対処するために,Mambaビジョンと階層的特徴融合を用いた言語駆動型グリップ検出手法であるGraspMambaを紹介した。
GraspMambaは、複数のスケールで視覚と言語の特徴を抽出し、堅牢なパフォーマンスと高速な推論時間を提供する、最初のMambaベースのグリップ検出モデルである。
論文 参考訳(メタデータ) (2024-09-22T11:45:48Z) - Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - A Notion of Uniqueness for the Adversarial Bayes Classifier [0.0]
本稿では,二項分類の設定において,逆ベイズ分類器に対して一意性という新たな概念を提案する。
摂動半径が増加するにつれて、逆ベイズ分類器の正則性は向上することを示す。
論文 参考訳(メタデータ) (2024-04-25T18:10:27Z) - Pose2Gest: A Few-Shot Model-Free Approach Applied In South Indian Classical Dance Gesture Recognition [0.0]
インドからの古典的な踊りは、ムドラと呼ばれる一連の手振りを用いており、その姿勢の語彙の基礎的な要素となっている。
本研究は,24クラス分類問題としての泥質認識に対処し,ポーズ推定手法を利用した新しいベクトル類似性に基づくアプローチを提案する。
提案手法は,92%の精度を達成し,既存のモデル学習手法に匹敵する,あるいは優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-17T09:37:25Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Likelihood-Based Text-to-Image Evaluation with Patch-Level Perceptual
and Semantic Credit Assignment [48.835298314274254]
生成した画像の可能性を直接推定し,テキスト・画像生成性能を評価する。
高い確率は、知覚品質が向上し、テキスト画像のアライメントが向上することを示している。
これらのモデルの生成能力を、数百のサンプルで評価することができる。
論文 参考訳(メタデータ) (2023-08-16T17:26:47Z) - Take the Hint: Improving Arabic Diacritization with
Partially-Diacritized Text [4.863310073296471]
本稿では,任意のダイアクリティカルティクスを効果的にサポートするマルチソースモデルである2SDiacを提案する。
また、ランダムマスキングのレベルが異なる入力において、与えられたダイアクリティカルを活用できるトレーニングスキームであるガイドドラーニングを導入する。
論文 参考訳(メタデータ) (2023-06-06T10:18:17Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - Contrastive Semantic Similarity Learning for Image Captioning Evaluation
with Intrinsic Auto-encoder [52.42057181754076]
自動エンコーダ機構とコントラスト表現学習の進歩により,画像キャプションのための学習基準を提案する。
文レベルの表現を学習するための3つのプログレッシブモデル構造を開発する。
実験結果から,提案手法は他の指標から得られるスコアとよく一致できることが示唆された。
論文 参考訳(メタデータ) (2021-06-29T12:27:05Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - An automated approach to mitigate transcription errors in braille texts
for the Portuguese language [1.0742675209112622]
本稿では、ポルトガル語の点字テキストにおける転写誤りを軽減させる自動アプローチを提案する。
本稿では,その点字表現に基づく単語の最適な対応を提供する辞書と組み合わせた選択関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。