Fugu-MT 論文翻訳(概要): Scene Text recognition with Full Normalization

論文の概要: Scene Text recognition with Full Normalization

arxiv url: http://arxiv.org/abs/2109.01034v1
Date: Tue, 13 Jul 2021 17:36:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-22 11:17:54.762113
Title: Scene Text recognition with Full Normalization
Title（参考訳）: 完全正規化によるシーンテキスト認識
Authors: Nathan Zachary, Gerald Carl, Russell Elijah, Hessi Roma, Robert Leer, James Amelia
Abstract要約: スマートフォン上での実際のショットからなる新しいデータセットを提案する。スマートフォン上での文書画像解析モデルの訓練における各種強化の影響について詳細に検討した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scene text recognition has made significant progress in recent years and has become an important part of the work-flow. The widespread use of mobile devices opens up wide possibilities for using OCR technologies in everyday life. However, lack of training data for new research in this area remains relevant. In this article, we present a new dataset consisting of real shots on smartphones and demonstrate the effectiveness of profile normalization in this task. In addition, the influence of various augmentations during the training of models for analyzing document images on smartphones is studied in detail. Our dataset is publicly available.
Abstract（参考訳）: シーンテキスト認識は近年大きく進歩しており、ワークフローの重要な部分となっている。モバイルデバイスの普及により、日常的にOCR技術を使用する可能性は大きく広がる。しかし、この領域では新たな研究のためのトレーニングデータが不足している。本稿では,スマートフォン上の実写からなる新しいデータセットを提案し,この課題におけるプロファイル正規化の有効性を示す。さらに,スマートフォン上での文書画像解析モデルの訓練における各種強化の影響について詳細に検討した。私たちのデータセットは公開されています。

関連論文リスト

Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文参考訳（メタデータ） (2025-04-30T14:19:29Z)
Deepfake Generation and Detection: A Benchmark and Survey [134.19054491600832]
Deepfakeは、特定の条件下で非常にリアルな顔画像やビデオを作成するための技術だ。この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。本研究では, 顔交換, 顔再現, 話し顔生成, 顔属性編集の4つの代表的なディープフェイク分野の研究に焦点をあてる。
論文参考訳（メタデータ） (2024-03-26T17:12:34Z)
Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。この分野での最近の進歩を包括的かつ多面的に分析する。
論文参考訳（メタデータ） (2024-02-05T15:13:20Z)
MyDigitalFootprint: an extensive context dataset for pervasive computing applications at the edge [7.310043452300736]
MyDigitalFootprintは、スマートフォンセンサーデータ、物理的な近接情報、オンラインソーシャルネットワークのインタラクションを含む大規模なデータセットである。自然環境における31人のボランティアユーザーによる2ヶ月の計測で、制限なしの行動を可能にする。データセットの有効性を示すために,各種機械学習タスクを利用したコンテキスト認識3つのアプリケーションを提案する。
論文参考訳（メタデータ） (2023-06-28T07:59:47Z)
Harnessing the Power of Text-image Contrastive Models for Automatic Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文参考訳（メタデータ） (2023-04-19T02:53:59Z)
Automatically Classifying Emotions based on Text: A Comparative Exploration of Different Datasets [0.0]
関連文献で最近紹介された3つのデータセットに注目した。従来型および最先端のディープラーニングモデルの性能について、データに異なる特性が存在する場合について検討する。実験により,RoBERTaのような最先端モデルがすべてのケースで最高の性能を発揮することが示された。
論文参考訳（メタデータ） (2023-02-28T16:34:55Z)
Geometric Perception based Efficient Text Recognition [0.0]
固定されたカメラ位置を持つ現実世界のアプリケーションでは、基礎となるデータは通常のシーンテキストであることが多い。本稿では, 基礎となる概念, 理論, 実装, 実験結果を紹介する。本稿では,現在ある幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別するように訓練された新しいディープラーニングアーキテクチャ(GeoTRNet)を提案する。
論文参考訳（メタデータ） (2023-02-08T04:19:24Z)
A Survey of Face Recognition [25.621380529149693]
本稿では,その歴史,パイプライン,従来の手動設計機能やディープラーニングに基づくアルゴリズム,主流トレーニング,評価,データセット,関連するアプリケーションなど,顔認識について紹介する。我々は、できるだけ多くの最先端の作業を分析し比較し、またバックボーンサイズとデータ分布の影響を調べるために、実験セットを慎重に設計した。
論文参考訳（メタデータ） (2022-12-26T08:36:58Z)
Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文参考訳（メタデータ） (2022-12-07T03:36:37Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。画像キャプションの研究はまだ結論に達していない。本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文参考訳（メタデータ） (2021-07-14T18:00:54Z)
TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval [103.85002875155551]
本研究では,大規模言語前訓練を利用した一般化蒸留法TeachTextを提案する。提案手法をビデオ側モダリティに拡張し,テスト時に使用するモダリティの数を効果的に削減できることを示す。提案手法は,いくつかのビデオ検索ベンチマークの精度を著しく向上させ,テスト時の計算オーバーヘッドを増加させない。
論文参考訳（メタデータ） (2021-04-16T17:55:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。