論文の概要: A New Unified Method for Detecting Text from Marathon Runners and Sports
Players in Video
- arxiv url: http://arxiv.org/abs/2005.12524v1
- Date: Tue, 26 May 2020 05:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:31:20.962136
- Title: A New Unified Method for Detecting Text from Marathon Runners and Sports
Players in Video
- Title(参考訳): マラソンランナーとスポーツ選手の映像中のテキスト検出のための新しい統一手法
- Authors: Sauradip Nag, Palaiahnakote Shivakumara, Umapada Pal, Tong Lu and
Michael Blumenstein
- Abstract要約: 提案手法は,テキスト画素の勾配等級と方向コヒーレンスを,候補領域を検出する新しい方法で融合する。
皮膚情報に基づいて,構造的および空間的コヒーレンスを見つけ,顔と胴体を検出する。
異なるデータセットのバイブ数/テキスト検出における最先端手法との比較研究により,提案手法が既存手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 37.86508176161514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting text located on the torsos of marathon runners and sports players
in video is a challenging issue due to poor quality and adverse effects caused
by flexible/colorful clothing, and different structures of human bodies or
actions. This paper presents a new unified method for tackling the above
challenges. The proposed method fuses gradient magnitude and direction
coherence of text pixels in a new way for detecting candidate regions.
Candidate regions are used for determining the number of temporal frame
clusters obtained by K-means clustering on frame differences. This process in
turn detects key frames. The proposed method explores Bayesian probability for
skin portions using color values at both pixel and component levels of temporal
frames, which provides fused images with skin components. Based on skin
information, the proposed method then detects faces and torsos by finding
structural and spatial coherences between them. We further propose adaptive
pixels linking a deep learning model for text detection from torso regions. The
proposed method is tested on our own dataset collected from marathon/sports
video and three standard datasets, namely, RBNR, MMM and R-ID of marathon
images, to evaluate the performance. In addition, the proposed method is also
tested on the standard natural scene datasets, namely, CTW1500 and MS-COCO text
datasets, to show the objectiveness of the proposed method. A comparative study
with the state-of-the-art methods on bib number/text detection of different
datasets shows that the proposed method outperforms the existing methods.
- Abstract(参考訳): マラソンランナーやスポーツ選手の胴体にあるテキストをビデオで検出することは、フレキシブル/カラーの衣服による品質と悪影響、そして人間の身体や行動の異なる構造のために難しい問題である。
本稿では,上記の課題に対処するための新しい統一手法を提案する。
提案手法は,テキスト画素の勾配等級と方向コヒーレンスを,候補領域を検出する新しい方法で融合する。
候補領域は、フレーム差に基づいてK平均クラスタリングによって得られた時間フレームクラスタの数を決定するために使用される。
このプロセスはキーフレームを検出する。
提案手法は,皮膚成分を融合した画像を提供する時間フレームの画素および成分レベルの色値を用いて,皮膚部分のベイズ確率を探索する。
提案手法では,皮膚情報に基づいて,顔と背骨の構造的および空間的コヒーレンスを検出する。
さらに,胴体領域からのテキスト検出のための深層学習モデルをリンクする適応画素を提案する。
提案手法は,マラソン/スポーツビデオと,マラソン画像のRBNR,MMM,R-IDの3つの標準データセットから収集したデータセットを用いて,その性能を評価する。
また,提案手法は,CTW1500およびMS-COCOテキストデータセットという,標準的な自然シーンデータセットを用いて,提案手法の目的性を示す。
異なるデータセットのバイブ数/テキスト検出における最先端手法との比較研究により,提案手法が既存手法より優れていることが示された。
関連論文リスト
- Focus Entirety and Perceive Environment for Arbitrary-Shaped Text Detection [31.180352896153682]
セグメンテーションベースのアプローチは、フレキシブルピクセルレベルの予測のため、顕著な競合候補として現れている。
そこで本研究では,フォーカス全体モジュールと知覚環境モジュールからなる多情報レベルの任意形テキスト検出器を提案する。
後者は、領域レベルの情報を抽出し、画素近傍の正のサンプルの分布にフォーカスするようモデルに促す。
論文 参考訳(メタデータ) (2024-09-25T11:24:37Z) - Spotlight Text Detector: Spotlight on Candidate Regions Like a Camera [31.180352896153682]
シーンテキストに有効なスポットライトテキスト検出器(STD)を提案する。
スポットライト校正モジュール(SCM)と多変量情報抽出モジュール(MIEM)で構成される。
我々のSTDは、様々なデータセットの既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-09-25T11:19:09Z) - CLIPC8: Face liveness detection algorithm based on image-text pairs and
contrastive learning [3.90443799528247]
画像テキストペアとコントラスト学習に基づく顔の生存度検出手法を提案する。
提案手法は,特定のシナリオにおいて,特定の生きた攻撃行動を効果的に検出することができる。
また、印刷写真攻撃やスクリーンリメイク攻撃などの従来の生きた攻撃方法の検出にも有効である。
論文 参考訳(メタデータ) (2023-11-29T12:21:42Z) - Enhanced Sharp-GAN For Histopathology Image Synthesis [63.845552349914186]
病理組織像合成は、正確ながん検出のためのディープラーニングアプローチの訓練において、データ不足の問題に対処することを目的としている。
核トポロジと輪郭正則化を用いて合成画像の品質を向上させる新しい手法を提案する。
提案手法は、Sharp-GANを2つのデータセット上の4つの画像品質指標すべてで上回る。
論文 参考訳(メタデータ) (2023-01-24T17:54:01Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Probabilistic Deep Metric Learning for Hyperspectral Image
Classification [91.5747859691553]
本稿では,ハイパースペクトル画像分類のための確率論的深度学習フレームワークを提案する。
ハイパースペクトルセンサーが捉えた画像に対して、各ピクセルのカテゴリを予測することを目的としている。
我々のフレームワークは、既存のハイパースペクトル画像分類法に容易に適用できる。
論文 参考訳(メタデータ) (2022-11-15T17:57:12Z) - Arbitrary Shape Text Detection using Transformers [2.294014185517203]
変換器(DETR)を用いた任意の字形テキスト検出のためのエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
提案手法は,任意の検出されたテキスト領域のスケールとアスペクト比の変化を正確に測定する境界ボックス損失関数を利用する。
曲面テキストのTotal-TextおよびCTW-1500データセットと、多目的テキストのMSRA-TD500およびICDAR15データセットを用いて、提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-02-22T22:36:29Z) - Shot boundary detection method based on a new extensive dataset and
mixed features [68.8204255655161]
ビデオにおけるショット境界検出は、ビデオデータ処理の重要な段階の1つである。
カラーヒストグラムや物体境界などの映像特徴に基づくショット境界検出法が提案されている。
論文 参考訳(メタデータ) (2021-09-02T16:19:24Z) - UC-Net: Uncertainty Inspired RGB-D Saliency Detection via Conditional
Variational Autoencoders [81.5490760424213]
データラベリングプロセスから学習することで、RGB-Dサリエンシ検出に不確実性を利用するための第1のフレームワーク(UCNet)を提案する。
そこで本研究では,サリエンシデータラベリングにヒントを得て,確率的RGB-Dサリエンシ検出ネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-13T04:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。