論文の概要: Detecting and recognizing characters in Greek papyri with YOLOv8, DeiT
and SimCLR
- arxiv url: http://arxiv.org/abs/2401.12513v2
- Date: Wed, 14 Feb 2024 01:40:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 18:45:19.628917
- Title: Detecting and recognizing characters in Greek papyri with YOLOv8, DeiT
and SimCLR
- Title(参考訳): YOLOv8, DeiT, SimCLRによるギリシア語パピルス文字の検出と認識
- Authors: Robert Turnbull and Evelyn Mannix
- Abstract要約: 本稿は、ギリシャ文字の検出・認識に関するICDAR 2023コンペティションへの参加について論じる。
我々は、YOLOv8モデルのアンサンブルを用いて個々の文字を検出し、分類し、2つの異なるアプローチを用いて文字予測を精査した。
平均精度(mAP)は51.4%であり,mAPは42.2%,検出精度(mAP)は51.4%であった。
- 参考スコア(独自算出の注目度): 9.7902367664742
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: The capacity to isolate and recognize individual characters from
facsimile images of papyrus manuscripts yields rich opportunities for digital
analysis. For this reason the `ICDAR 2023 Competition on Detection and
Recognition of Greek Letters on Papyri' was held as part of the 17th
International Conference on Document Analysis and Recognition. This paper
discusses our submission to the competition.
Methods: We used an ensemble of YOLOv8 models to detect and classify
individual characters and employed two different approaches for refining the
character predictions, including a transformer based DeiT approach and a
ResNet-50 model trained on a large corpus of unlabelled data using SimCLR, a
self-supervised learning method.
Results: Our submission won the recognition challenge with a mAP of 42.2%,
and was runner-up in the detection challenge with a mean average precision
(mAP) of 51.4%. At the more relaxed intersection over union threshold of 0.5,
we achieved the highest mean average precision and mean average recall results
for both detection and classification.
Conclusion: The results demonstrate the potential for these techniques for
automated character recognition on historical manuscripts. We ran the
prediction pipeline on more than 4,500 images from the Oxyrhynchus Papyri to
illustrate the utility of our approach, and we release the results publicly in
multiple formats.
- Abstract(参考訳): 目的:パピルス写本のファクシミリ画像から個々の文字を分離・認識する能力は,デジタル解析の豊富な機会をもたらす。
このため、第17回国際文書分析・認識会議(international conference on document analysis and recognition)において「パピリに関するギリシア文字の検出と認識に関するicdar 2023コンペティション」が開催された。
本稿では,コンペへの応募について論じる。
方法: YOLOv8モデルのアンサンブルを用いて個々の文字を検出して分類し, トランスフォーマーベースのDeiTアプローチと, 自己教師型学習手法であるSimCLRを用いて学習したResNet-50モデルを含む, キャラクタの予測を改良する2つのアプローチを用いた。
結果: 平均平均精度(mAP)は51.4%, 平均精度(mAP)は42.2%, 検出精度(mAP)は51.4%であった。
ユニオンしきい値0.5のより緩やかな交差点において,検出と分類の両方において,平均平均精度と平均平均リコール結果が最高であった。
結論: 研究結果は, 歴史写本における文字認識の自動化の可能性を示すものである。
我々は、Oxyrhynchus Papyriから4,500枚以上の画像で予測パイプラインを実行し、アプローチの有用性を説明し、結果を複数のフォーマットで公開しました。
関連論文リスト
- Solution for OOD-CV Workshop SSB Challenge 2024 (Open-Set Recognition Track) [6.998958192483059]
課題は、テストサンプルが分類器のトレーニングセットのセマンティッククラスに属しているかどうかを特定することであった。
我々は,ポストホックOOD検出技術とテスト時間拡張戦略を融合したハイブリッド手法を提案する。
AUROCとFPR95のスコアのバランスを保ちながら,テスト時間拡張とポストホックOODを併用したベストパフォーマンス手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:28:14Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Whole-body Detection, Recognition and Identification at Altitude and
Range [57.445372305202405]
多様なデータセットに基づいて評価したエンドツーエンドシステムを提案する。
我々のアプローチでは、一般的な画像データセットで検出器を事前トレーニングし、BRIARの複雑なビデオや画像でそれを微調整する。
屋内・屋外・航空シナリオにおける様々な範囲や角度の異なる条件下で徹底的な評価を行う。
論文 参考訳(メタデータ) (2023-11-09T20:20:23Z) - Handwritten Stenography Recognition and the LION Dataset [0.0]
Stenographic Domain Knowledgeは、4つの異なるエンコーディング手法を適用することで統合される。
テストエラー率は、ステントグラフィー固有のターゲットシーケンスエンコーディングと事前トレーニングと微調整を組み合わせることで大幅に低減される。
論文 参考訳(メタデータ) (2023-08-15T14:25:53Z) - EFaR 2023: Efficient Face Recognition Competition [51.77649060180531]
バイオメトリックス国際会議(IJCB 2023)における効率的な顔認識コンペティション(EFaR)の概要について述べる。
この競技会は6つの異なるチームから17の応募を受けた。
提案したソリューションは、様々なベンチマークで達成された検証精度の重み付けスコアと、浮動小数点演算数とモデルサイズによって与えられるデプロイ可能性に基づいてランク付けされる。
論文 参考訳(メタデータ) (2023-08-08T09:58:22Z) - Improving CNN-based Person Re-identification using score Normalization [2.462953128215087]
本稿では,CNNに基づく特徴抽出手法とXQDA(Cross-view Quadratic Discriminant Analysis)を組み合わせたPRe-IDを提案する。
提案手法は、VIPeR、GRID、CUHK01、VIPeR、PRID450Sの4つの挑戦的データセットで検証される。
論文 参考訳(メタデータ) (2023-07-01T18:12:27Z) - mc-BEiT: Multi-choice Discretization for Image BERT Pre-training [52.04866462439979]
Image BERT pre-training with masked image modeling (MIM)は、自己教師付き表現学習に対処する一般的な実践である。
改良されたBERTスタイルの画像事前学習手法であるmc-BEiTを導入する。
論文 参考訳(メタデータ) (2022-03-29T09:08:18Z) - Twitter-COMMs: Detecting Climate, COVID, and Military Multimodal
Misinformation [83.2079454464572]
本稿では,DARPAセマンティック・フォレスティクス(SemaFor)プログラムにおける画像テキスト不整合検出へのアプローチについて述べる。
Twitter-COMMsは大規模マルチモーダルデータセットで、884万のツイートが気候変動、新型コロナウイルス、軍用車両のトピックに関連する。
我々は、最先端のCLIPモデルに基づいて、自動生成されたランダムとハードのネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガネガ
論文 参考訳(メタデータ) (2021-12-16T03:37:20Z) - Rotation Invariance and Extensive Data Augmentation: a strategy for the
Mitosis Domain Generalization (MIDOG) Challenge [1.52292571922932]
我々は,MIDOG 2021コンペティションに参加するための戦略を提示する。
このコンペティションの目的は、目に見えないターゲットスキャナーで取得した画像に対する解の一般化を評価することである。
本稿では,最先端のディープラーニング手法の組み合わせに基づく解を提案する。
論文 参考訳(メタデータ) (2021-09-02T10:09:02Z) - FixMatch: Simplifying Semi-Supervised Learning with Consistency and
Confidence [93.91751021370638]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルの性能を向上させる効果的な手段を提供する。
本稿では、整合正則化と擬似ラベル付けという2つの共通SSL手法の単純な組み合わせのパワーを実証する。
筆者らのアルゴリズムであるFixMatchは、まず、弱拡張未ラベル画像上のモデルの予測を用いて擬似ラベルを生成する。
論文 参考訳(メタデータ) (2020-01-21T18:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。