Fugu-MT 論文翻訳(概要): 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit

論文の概要: 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit

arxiv url: http://arxiv.org/abs/2104.03544v1
Date: Thu, 8 Apr 2021 06:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-09 13:07:15.467617
Title: 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit
Title（参考訳）: 1st Place Solution to ICDAR 2021 RRC-ICTEXT End-to-end Text Spotting and Aesthetic Assessment on Integrated Circuit
Authors: Qiyao Wang, Pengfei Li, Li Zhu, Yi Niu
Abstract要約: 本論文では,ICDAR 2021ロバストリーディングチャレンジ-集積回路テキストスポッティングと審美評価への提案手法を提案する。テキストスポッティングタスクでは、統合回路上で文字を検出し、yolov5検出モデルに基づいて分類する。審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。
参考スコア（独自算出の注目度）: 17.471330378900657
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents our proposed methods to ICDAR 2021 Robust Reading Challenge - Integrated Circuit Text Spotting and Aesthetic Assessment (ICDAR RRC-ICTEXT 2021). For the text spotting task, we detect the characters on integrated circuit and classify them based on yolov5 detection model. We balance the lowercase and non-lowercase by using SynthText, generated data and data sampler. We adopt semi-supervised algorithm and distillation to furtherly improve the model's accuracy. For the aesthetic assessment task, we add a classification branch of 3 classes to differentiate the aesthetic classes of each character. Finally, we make model deployment to accelerate inference speed and reduce memory consumption based on NVIDIA Tensorrt. Our methods achieve 59.1 mAP on task 3.1 with 31 FPS and 306M memory (rank 1), 78.7\% F2 score on task 3.2 with 30 FPS and 306M memory (rank 1).
Abstract（参考訳）: 本稿では,icdar 2021におけるロバスト・リーディング・チャレンジ - 集積回路テキストスポッティングと審美評価 (icdar rrc-ictext 2021) のための提案手法を提案する。テキストスポッティングタスクでは、集積回路上の文字を検出し、ヨロフ5検出モデルに基づいて分類する。シンセテキスト,生成データ,データサンプルを用いて,小文字と非小文字のバランスをとる。半教師付きアルゴリズムと蒸留を用いてモデルの精度をさらに向上する。審美評価タスクには,各キャラクタの審美クラスを識別するために,3つの分類枝を追加する。最後に,NVIDIA Tensorrtに基づく推論速度の高速化とメモリ消費の削減を目的としたモデル展開を行う。タスク3.1では31fps,306mメモリ(rank1),タスク3.2では78.7\%f2スコア,30fpsでは306mメモリ(rank1)で59.1マップを実現する。

関連論文リスト

Textile Analysis for Recycling Automation using Transfer Learning and Zero-Shot Foundation Models [6.932314083921248]
本稿では, 標準RGB画像, コスト効率のよいセンシングモダリティを, 自動化システムにおける重要な前処理タスクに利用することを検討する。本稿では,コンベアベルト構成のためのコンピュータビジョンコンポーネントについて,(a)4種類の一般的な織物の分類と,(b)ボタンやジッパーなどの非繊維の特徴のセグメンテーションを行う。
論文参考訳（メタデータ） (2025-06-06T22:49:53Z)
Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer [0.0]
本稿では,構造化情報抽出のためのハイブリッドディープラーニングフレームワークを提案する。オブジェクト指向境界ボックス(OBB)モデルと変換器ベースの文書解析モデル(Donut)を統合する。提案するフレームワークは、精度を改善し、手作業の労力を削減するとともに、精度駆動型産業におけるスケーラブルなデプロイメントをサポートする。
論文参考訳（メタデータ） (2025-05-02T18:33:21Z)
HyperspectralViTs: General Hyperspectral Models for On-board Remote Sensing [21.192836739734435]
機械学習モデルによるハイパースペクトルデータのオンボード処理は、幅広いタスクに対して前例のない量の自律性を可能にする。これにより早期警戒システムが可能となり、衛星の星座にまたがる自動スケジューリングなどの新機能が実現される可能性がある。本研究では,高スペクトル次元のデータを用いたエンドツーエンドの学習を支援する,高速かつ正確な機械学習アーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-22T17:59:55Z)
First Place Solution of 2023 Global Artificial Intelligence Technology Innovation Competition Track 1 [9.915564470970049]
我々は,グローバル人工知能技術革新コンペティショントラック1のチャンピオンソリューションを提示する。我々はテキスト生成タスクのベースモデルとしてCPT-BASEを選択する。驚いたことに、我々のシングルモデルはリーダーボードAで2.321点を獲得し、複数のモデル融合スコアはAとBのリーダーボードで2.362点と2.320点である。
論文参考訳（メタデータ） (2024-07-01T13:22:22Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。提案手法の有効性を広範囲な実験により実証する。
論文参考訳（メタデータ） (2024-04-06T13:14:04Z)
End-to-End Temporal Action Detection with 1B Parameters Across 1000 Frames [55.72994484532856]
時間的行動検出(TAD)は、エンドツーエンドのトレーニングで大幅に改善された。メモリボトルネックのため、限られたスケールと限られたデータ量を持つモデルだけがエンドツーエンドのトレーニングを受けることができる。エンド・ツー・エンドトレーニングのメモリ消費を削減し,10億のパラメータと入力映像を1,536フレームにスケールアップする。
論文参考訳（メタデータ） (2023-11-28T21:31:04Z)
Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。検出精度は初期41%からOODテストセットの92%に改善した。
論文参考訳（メタデータ） (2023-09-23T05:02:31Z)
Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文参考訳（メタデータ） (2023-06-21T06:18:05Z)
Zero-Shot Anomaly Detection with Pre-trained Segmentation Models [2.9322869014189985]
本稿では,視覚異常・ノベルティ検出(VAND)2023チャレンジのゼロショットトラックについて概説する。 WINCLIPフレームワークの性能に基づいて、ゼロショットセグメンテーションモデルを統合することにより、システムのローカライゼーション能力を向上することを目指している。パイプラインは外部データや情報を必要としないため、新たなデータセットに直接適用することが可能です。
論文参考訳（メタデータ） (2023-06-15T16:43:07Z)
Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。 CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文参考訳（メタデータ） (2023-06-01T12:53:10Z)
Encoding Syntactic Knowledge in Transformer Encoder for Intent Detection and Slot Filling [6.234581622120001]
本稿では,インテント検出とスロットフィリングのための構文知識を符号化したトランスフォーマーエンコーダアーキテクチャを提案する。シンタクティックな知識をトランスフォーマーエンコーダにエンコードし、マルチタスク学習を通じて各トークンの構文的パース祖先と部分音声を予測する。
論文参考訳（メタデータ） (2020-12-21T21:25:11Z)
SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文参考訳（メタデータ） (2020-07-26T12:32:38Z)
Device-Robust Acoustic Scene Classification Based on Two-Stage Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。 Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文参考訳（メタデータ） (2020-07-16T15:07:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。