論文の概要: 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and
Aesthetic Assessment on Integrated Circuit
- arxiv url: http://arxiv.org/abs/2104.03544v1
- Date: Thu, 8 Apr 2021 06:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:07:15.467617
- Title: 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and
Aesthetic Assessment on Integrated Circuit
- Title(参考訳): 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit
- Authors: Qiyao Wang, Pengfei Li, Li Zhu, Yi Niu
- Abstract要約: 本論文では,ICDAR 2021ロバストリーディングチャレンジ-集積回路テキストスポッティングと審美評価への提案手法を提案する。
テキストスポッティングタスクでは、統合回路上で文字を検出し、yolov5検出モデルに基づいて分類する。
審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。
- 参考スコア(独自算出の注目度): 17.471330378900657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our proposed methods to ICDAR 2021 Robust Reading
Challenge - Integrated Circuit Text Spotting and Aesthetic Assessment (ICDAR
RRC-ICTEXT 2021). For the text spotting task, we detect the characters on
integrated circuit and classify them based on yolov5 detection model. We
balance the lowercase and non-lowercase by using SynthText, generated data and
data sampler. We adopt semi-supervised algorithm and distillation to furtherly
improve the model's accuracy. For the aesthetic assessment task, we add a
classification branch of 3 classes to differentiate the aesthetic classes of
each character. Finally, we make model deployment to accelerate inference speed
and reduce memory consumption based on NVIDIA Tensorrt. Our methods achieve
59.1 mAP on task 3.1 with 31 FPS and 306M memory (rank 1), 78.7\% F2 score on
task 3.2 with 30 FPS and 306M memory (rank 1).
- Abstract(参考訳): 本稿では,icdar 2021におけるロバスト・リーディング・チャレンジ - 集積回路テキストスポッティングと審美評価 (icdar rrc-ictext 2021) のための提案手法を提案する。
テキストスポッティングタスクでは、集積回路上の文字を検出し、ヨロフ5検出モデルに基づいて分類する。
シンセテキスト,生成データ,データサンプルを用いて,小文字と非小文字のバランスをとる。
半教師付きアルゴリズムと蒸留を用いてモデルの精度をさらに向上する。
審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。
最後に,NVIDIA Tensorrtに基づく推論速度の高速化とメモリ消費の削減を目的としたモデル展開を行う。
タスク3.1では31fps,306mメモリ(rank1),タスク3.2では78.7\%f2スコア,30fpsでは306mメモリ(rank1)で59.1マップを実現する。
関連論文リスト
- End-to-End Temporal Action Detection with 1B Parameters Across 1000
Frames [60.88096113158131]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。
メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。
本稿では,エンド・ツー・エンドのトレーニングにおけるメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文 参考訳(メタデータ) (2023-11-28T21:31:04Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Zero-Shot Anomaly Detection with Pre-trained Segmentation Models [2.9322869014189985]
本稿では,視覚異常・ノベルティ検出(VAND)2023チャレンジのゼロショットトラックについて概説する。
WINCLIPフレームワークの性能に基づいて、ゼロショットセグメンテーションモデルを統合することにより、システムのローカライゼーション能力を向上することを目指している。
パイプラインは外部データや情報を必要としないため、新たなデータセットに直接適用することが可能です。
論文 参考訳(メタデータ) (2023-06-15T16:43:07Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - QTI Submission to DCASE 2021: residual normalization for
device-imbalanced acoustic scene classification with efficient design [11.412720572948087]
このタスクの目的は、モデル複雑性の制約の下でデバイス不均衡なデータセットのためのオーディオシーン分類システムを設計することである。
本報告では,目標を達成するための4つの方法を紹介する。
提案システムは,TAU Urban Acoustic Scenes 2020 Mobileにおける平均テスト精度76.3%,315kパラメータによる開発データセット,圧縮後の75.3%,非ゼロパラメータの61.0KBまでの平均テスト精度を達成している。
論文 参考訳(メタデータ) (2022-06-28T11:42:52Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。