Fugu-MT 論文翻訳(概要): Image-free multi-character recognition

論文の概要: Image-free multi-character recognition

arxiv url: http://arxiv.org/abs/2112.10587v1
Date: Mon, 20 Dec 2021 15:06:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-21 21:39:45.529696
Title: Image-free multi-character recognition
Title（参考訳）: 画像フリーマルチキャラクタ認識
Authors: Huayi Wang, Chunli Zhu, Liheng Bian
Abstract要約: 本稿では,マルチターゲット認識に挑戦する新たなイメージフリーセンシング技術について報告する。報告されたCRNNネットワークユーティリティは、複数の文字の分布を同時に予測するために双方向LSTMアーキテクチャを利用する。本手法の有効性を実証し, 87.60%の認識精度を5%サンプリングレートで達成し, 100 FPSリフレッシュレートを高くした。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recently developed image-free sensing technique maintains the advantages of both the light hardware and software, which has been applied in simple target classification and motion tracking. In practical applications, however, there usually exist multiple targets in the field of view, where existing trials fail to produce multi-semantic information. In this letter, we report a novel image-free sensing technique to tackle the multi-target recognition challenge for the first time. Different from the convolutional layer stack of image-free single-pixel networks, the reported CRNN network utilities the bidirectional LSTM architecture to predict the distribution of multiple characters simultaneously. The framework enables to capture the long-range dependencies, providing a high recognition accuracy of multiple characters. We demonstrated the technique's effectiveness in license plate detection, which achieved 87.60% recognition accuracy at a 5% sampling rate with a higher than 100 FPS refresh rate.
Abstract（参考訳）: 最近開発されたイメージフリーセンシング技術は、単純なターゲット分類とモーショントラッキングに応用された軽量ハードウェアとソフトウェアの両方の利点を維持している。しかし、実際的な応用では、既存の試行が複数の意味情報を生成するのに失敗する視野に複数の目標が存在するのが普通である。本稿では,マルチターゲット認識課題に初めて取り組むための無像センシング手法について報告する。画像のない単一ピクセルネットワークの畳み込み層スタックとは異なり、報告されたCRNNネットワークは双方向LSTMアーキテクチャを利用して複数の文字の分布を同時に予測する。このフレームワークは、長距離依存関係をキャプチャし、複数の文字の高い認識精度を提供する。 100fps以上のリフレッシュレートで5%のサンプリングレートで87.60%の認識精度を得たライセンスプレート検出において,本手法の有効性を実証した。

関連論文リスト

Foundation Visual Encoders Are Secretly Few-Shot Anomaly Detectors [58.75916798814376]
FoundADと呼ばれる数発の異常検出装置を開発した。画像中の異常量は学習した埋め込みの差と直接相関する。簡単な演算子は、画像中の分布外領域を特徴付け識別する異常検出の有効なツールとして機能する。
論文参考訳（メタデータ） (2025-10-02T11:53:20Z)
One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文参考訳（メタデータ） (2025-05-28T04:23:22Z)
Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文参考訳（メタデータ） (2024-12-21T09:30:45Z)
DA-HFNet: Progressive Fine-Grained Forgery Image Detection and Localization Based on Dual Attention [12.36906630199689]
DA-HFNet鍛造画像データセットをテキストまたは画像支援GANおよび拡散モデルで作成する。我々のゴールは、階層的なプログレッシブネットワークを使用して、異なるスケールの偽造物を検出およびローカライゼーションするために捕獲することである。
論文参考訳（メタデータ） (2024-06-03T16:13:33Z)
Single-Shot and Multi-Shot Feature Learning for Multi-Object Tracking [55.13878429987136]
そこで本研究では,異なる目標に対して,単発と複数発の特徴を共同で学習するための,シンプルで効果的な2段階特徴学習パラダイムを提案する。提案手法は,DanceTrackデータセットの最先端性能を達成しつつ,MOT17およびMOT20データセットの大幅な改善を実現している。
論文参考訳（メタデータ） (2023-11-17T08:17:49Z)
LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文参考訳（メタデータ） (2023-11-06T15:39:48Z)
A Dual Attentive Generative Adversarial Network for Remote Sensing Image Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。 DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文参考訳（メタデータ） (2023-10-03T08:26:27Z)
Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文参考訳（メタデータ） (2022-09-12T17:17:49Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Image Manipulation Detection by Multi-View Multi-Scale Supervision [11.319080833880307]
画像操作検出の主な課題は、新しいデータの操作に敏感な一般化可能な特徴の学習方法である。本稿では,多視点特徴学習とマルチスケール監視による両面の考察を行う。我々の思考はMVSS-Netと呼ばれる新しいネットワークによって実現される。
論文参考訳（メタデータ） (2021-04-14T13:05:58Z)
D-Unet: A Dual-encoder U-Net for Image Splicing Forgery Detection and Localization [108.8592577019391]
画像スプライシング偽造検出は、画像指紋によって改ざんされた領域と非改ざんされた領域を区別するグローバルバイナリ分類タスクである。画像スプライシングフォージェリ検出のためのデュアルエンコーダU-Net(D-Unet)という,固定されていないエンコーダと固定エンコーダを用いた新しいネットワークを提案する。 D-Unetと最先端技術の比較実験において、D-Unetは画像レベルおよび画素レベルの検出において他の手法よりも優れていた。
論文参考訳（メタデータ） (2020-12-03T10:54:02Z)
Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文参考訳（メタデータ） (2020-08-19T13:13:01Z)
MuCAN: Multi-Correspondence Aggregation Network for Video Super-Resolution [63.02785017714131]
ビデオ超解像(VSR)は、複数の低解像度フレームを使用して、各フレームに対して高解像度の予測を生成することを目的としている。フレーム間およびフレーム内は、時間的および空間的情報を利用するための鍵となるソースである。 VSRのための効果的なマルチ対応アグリゲーションネットワーク(MuCAN)を構築した。
論文参考訳（メタデータ） (2020-07-23T05:41:27Z)
Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文参考訳（メタデータ） (2020-03-15T11:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。