論文の概要: 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and
Aesthetic Assessment on Integrated Circuit
- arxiv url: http://arxiv.org/abs/2104.03544v1
- Date: Thu, 8 Apr 2021 06:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:07:15.467617
- Title: 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and
Aesthetic Assessment on Integrated Circuit
- Title(参考訳): 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit
- Authors: Qiyao Wang, Pengfei Li, Li Zhu, Yi Niu
- Abstract要約: 本論文では,ICDAR 2021ロバストリーディングチャレンジ-集積回路テキストスポッティングと審美評価への提案手法を提案する。
テキストスポッティングタスクでは、統合回路上で文字を検出し、yolov5検出モデルに基づいて分類する。
審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。
- 参考スコア(独自算出の注目度): 17.471330378900657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents our proposed methods to ICDAR 2021 Robust Reading
Challenge - Integrated Circuit Text Spotting and Aesthetic Assessment (ICDAR
RRC-ICTEXT 2021). For the text spotting task, we detect the characters on
integrated circuit and classify them based on yolov5 detection model. We
balance the lowercase and non-lowercase by using SynthText, generated data and
data sampler. We adopt semi-supervised algorithm and distillation to furtherly
improve the model's accuracy. For the aesthetic assessment task, we add a
classification branch of 3 classes to differentiate the aesthetic classes of
each character. Finally, we make model deployment to accelerate inference speed
and reduce memory consumption based on NVIDIA Tensorrt. Our methods achieve
59.1 mAP on task 3.1 with 31 FPS and 306M memory (rank 1), 78.7\% F2 score on
task 3.2 with 30 FPS and 306M memory (rank 1).
- Abstract(参考訳): 本稿では,icdar 2021におけるロバスト・リーディング・チャレンジ - 集積回路テキストスポッティングと審美評価 (icdar rrc-ictext 2021) のための提案手法を提案する。
テキストスポッティングタスクでは、集積回路上の文字を検出し、ヨロフ5検出モデルに基づいて分類する。
シンセテキスト,生成データ,データサンプルを用いて,小文字と非小文字のバランスをとる。
半教師付きアルゴリズムと蒸留を用いてモデルの精度をさらに向上する。
審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。
最後に,NVIDIA Tensorrtに基づく推論速度の高速化とメモリ消費の削減を目的としたモデル展開を行う。
タスク3.1では31fps,306mメモリ(rank1),タスク3.2では78.7\%f2スコア,30fpsでは306mメモリ(rank1)で59.1マップを実現する。
関連論文リスト
- HyperspectralViTs: General Hyperspectral Models for On-board Remote Sensing [21.192836739734435]
機械学習モデルによるハイパースペクトルデータのオンボード処理は、幅広いタスクに対して前例のない量の自律性を可能にする。
これにより早期警戒システムが可能となり、衛星の星座にまたがる自動スケジューリングなどの新機能が実現される可能性がある。
本研究では,高スペクトル次元のデータを用いたエンドツーエンドの学習を支援する,高速かつ正確な機械学習アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-22T17:59:55Z) - First Place Solution of 2023 Global Artificial Intelligence Technology Innovation Competition Track 1 [9.915564470970049]
我々は,グローバル人工知能技術革新コンペティショントラック1のチャンピオンソリューションを提示する。
我々はテキスト生成タスクのベースモデルとしてCPT-BASEを選択する。
驚いたことに、我々のシングルモデルはリーダーボードAで2.321点を獲得し、複数のモデル融合スコアはAとBのリーダーボードで2.362点と2.320点である。
論文 参考訳(メタデータ) (2024-07-01T13:22:22Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames [55.72994484532856]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。
メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。
エンド・ツー・エンドトレーニングのメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文 参考訳(メタデータ) (2023-11-28T21:31:04Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Zero-Shot Anomaly Detection with Pre-trained Segmentation Models [2.9322869014189985]
本稿では,視覚異常・ノベルティ検出(VAND)2023チャレンジのゼロショットトラックについて概説する。
WINCLIPフレームワークの性能に基づいて、ゼロショットセグメンテーションモデルを統合することにより、システムのローカライゼーション能力を向上することを目指している。
パイプラインは外部データや情報を必要としないため、新たなデータセットに直接適用することが可能です。
論文 参考訳(メタデータ) (2023-06-15T16:43:07Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection
and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。
シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文 参考訳(メタデータ) (2020-12-21T21:25:11Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。