論文の概要: FANVID: A Benchmark for Face and License Plate Recognition in Low-Resolution Videos
- arxiv url: http://arxiv.org/abs/2506.07304v1
- Date: Sun, 08 Jun 2025 22:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.756631
- Title: FANVID: A Benchmark for Face and License Plate Recognition in Low-Resolution Videos
- Title(参考訳): FANVID: 低解像度ビデオにおける顔認識とライセンスプレート認識のためのベンチマーク
- Authors: Kavitha Viswanathan, Vrinda Goel, Shlesh Gholap, Devayan Ghosh, Madhav Gupta, Dhruvi Ganatra, Sanket Potdar, Amit Sethi,
- Abstract要約: 現実世界の監視は、個々の低解像度(LR)フレームで認識できない顔やナンバープレートをレンダリングし、信頼性の高い識別を妨げる。
63のアイデンティティと49のライセンスプレートを備えた1,463のLRクリップからなる新しいビデオベースベンチマークであるFANVIDを提案する。
それぞれのビデオには、邪魔な顔とプレート、タスクの難しさとリアリズムが盛り込まれている。
- 参考スコア(独自算出の注目度): 1.9652690138628872
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world surveillance often renders faces and license plates unrecognizable in individual low-resolution (LR) frames, hindering reliable identification. To advance temporal recognition models, we present FANVID, a novel video-based benchmark comprising nearly 1,463 LR clips (180 x 320, 20--60 FPS) featuring 63 identities and 49 license plates from three English-speaking countries. Each video includes distractor faces and plates, increasing task difficulty and realism. The dataset contains 31,096 manually verified bounding boxes and labels. FANVID defines two tasks: (1) face matching -- detecting LR faces and matching them to high-resolution mugshots, and (2) license plate recognition -- extracting text from LR plates without a predefined database. Videos are downsampled from high-resolution sources to ensure that faces and text are indecipherable in single frames, requiring models to exploit temporal information. We introduce evaluation metrics adapted from mean Average Precision at IoU > 0.5, prioritizing identity correctness for faces and character-level accuracy for text. A baseline method with pre-trained video super-resolution, detection, and recognition achieved performance scores of 0.58 (face matching) and 0.42 (plate recognition), highlighting both the feasibility and challenge of the tasks. FANVID's selection of faces and plates balances diversity with recognition challenge. We release the software for data access, evaluation, baseline, and annotation to support reproducibility and extension. FANVID aims to catalyze innovation in temporal modeling for LR recognition, with applications in surveillance, forensics, and autonomous vehicles.
- Abstract(参考訳): 現実世界の監視は、個々の低解像度(LR)フレームで顔やナンバープレートを認識できないようにし、信頼性の高い識別を妨げている。
FANVIDは3カ国の63のアイデンティティと49のライセンスプレートを備えた1,463本のLRクリップ(180 x 320, 20-60 FPS)からなる新しいビデオベースベンチマークである。
それぞれのビデオには、邪魔な顔とプレート、タスクの難しさとリアリズムが盛り込まれている。
データセットには、手作業による検証済みのバウンディングボックスとラベルが含まれている。
FANVIDは、(1)顔マッチング -- LR顔を検出し、それらを高解像度のマグショットにマッチングすること、(2)ライセンスプレート認識 -- 事前定義されたデータベースなしでLRプレートからテキストを抽出すること、の2つのタスクを定義している。
ビデオは高解像度のソースから切り離され、顔やテキストが単一のフレームで解読できないことを保証する。
IoU > 0.5における平均精度から適応した評価指標を導入し,顔の識別精度と文字レベルの精度を優先する。
事前学習したビデオの超解像,検出,認識を行うベースライン手法は,タスクの実現可能性と課題の両立を図った0.58(顔マッチング)と0.42(プレート認識)のパフォーマンススコアを達成した。
FANVIDの顔とプレートの選択は、多様性と認識課題のバランスをとる。
データアクセス、評価、ベースライン、アノテーションのためのソフトウェアをリリースし、再現性と拡張性をサポートします。
FANVIDは、LR認識のための時間モデリングの革新を触媒し、監視、法医学、自動運転車に応用することを目的としている。
関連論文リスト
- Toward Advancing License Plate Super-Resolution in Real-World Scenarios: A Dataset and Benchmark [2.7961815663180425]
LPR(Super- resolution for License Plate Recognition)は、監視、交通監視、法医学的応用において、低解像度(LR)および劣化した画像によって引き起こされる課題に対処することを目的としている。
UFPR-SR-Platesは、10万のトラックと10万のペアの低解像度と高解像度のプレート画像を含む新しいデータセットである。
ライセンスプレートの超解像のための2つの最先端モデルと、車両毎の複数の逐次LRと高分解能(HR)画像を用いたベンチマークを構築した。
論文 参考訳(メタデータ) (2025-05-09T19:37:57Z) - Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait [70.00430652562012]
FarSightは、顔認識のためのエンドツーエンドシステムで、顔、歩行、体形を横断する生体計測の手がかりを統合する。
FarSightは、4つのコアモジュールにまたがる新しいアルゴリズムを組み込んでいる。
論文 参考訳(メタデータ) (2025-05-07T17:58:25Z) - Uncertainty-Aware Prototype Semantic Decoupling for Text-Based Person Search in Full Images [9.208594097579523]
テキストに基づく歩行者探索 (TBPS) は, 対象歩行者の位置を自然言語で特定することを目的としている。
MUE(Multi-granularity Uncertainity Estimation)、PUD(Prototype-based Uncertainity Decoupling)、ReID(Cross-modal Re-identification)の3つのモジュールからなる新しいフレームワークであるUDD-TBPSを提案する。
論文 参考訳(メタデータ) (2025-05-06T14:25:30Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - End-to-End High Accuracy License Plate Recognition Based on Depthwise
Separable Convolution Networks [0.0]
ライセンスプレート認識のための新しいセグメンテーションフリーフレームワークを提案し,NP-ALPRデータセットを導入した。
提案するネットワークモデルは,最新のディープラーニング手法と最先端のアイデアと,新しいネットワークアーキテクチャのメリットで構成されている。
提案手法の有効性を3つの異なるデータセットで評価し,99%以上,70fps以上の認識精度を示した。
論文 参考訳(メタデータ) (2022-02-21T14:45:03Z) - End-to-End License Plate Recognition Pipeline for Real-time Low Resource
Video Based Applications [0.43012765978447565]
リアルタイムの推論速度を実現するために、Vision APIと組み合わせた新しい2段階検出パイプラインを提案する。
私たちは、画像データセットと、野生のライセンスプレートを含むビデオデータセットに基づいて、モデルをトレーニングしました。
実時間処理速度(毎秒27.2フレーム)で妥当な検出・認識性能を観測した。
論文 参考訳(メタデータ) (2021-08-18T18:31:01Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z) - A Robust Attentional Framework for License Plate Recognition in the Wild [95.7296788722492]
本稿では,ライセンスプレート認識のための堅牢なフレームワークを提案する。
ナンバープレート画像生成のためのCycleGANモデルと、プレート認識のための精巧な設計された画像系列ネットワークで構成されている。
われわれは、中国本土31州から1200枚の画像を含む新しいライセンスプレートデータセット「CLPD」をリリースした。
論文 参考訳(メタデータ) (2020-06-06T17:11:52Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z) - Towards Precise Intra-camera Supervised Person Re-identification [54.86892428155225]
人物の再識別(Re-ID)のためのカメラ内監視(ICS)は、アイデンティティラベルが各カメラビュー内に独立してアノテートされていると仮定する。
カメラ間ラベルの欠如により、ICS Re-ID問題は、完全に監督されたラベルよりもはるかに難しい。
われわれの手法は、2つのデータセットで最先端の完全教師付き手法に匹敵する性能を発揮する。
論文 参考訳(メタデータ) (2020-02-12T11:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。