論文の概要: Learning Robust Feature Representations for Scene Text Detection
- arxiv url: http://arxiv.org/abs/2005.12466v1
- Date: Tue, 26 May 2020 01:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 00:15:07.306084
- Title: Learning Robust Feature Representations for Scene Text Detection
- Title(参考訳): シーンテキスト検出のためのロバストな特徴表現の学習
- Authors: Sihwan Kim and Taejang Park
- Abstract要約: 本稿では、条件付きログを最大化するために、損失から導かれるネットワークアーキテクチャを提案する。
潜伏変数の層を複数の層に拡張することで、ネットワークは大規模に堅牢な機能を学ぶことができる。
実験では,提案アルゴリズムはリコール法と精度の両面で最先端の手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text detection based on deep neural networks have progressed
substantially over the past years. However, previous state-of-the-art methods
may still fall short when dealing with challenging public benchmarks because
the performances of algorithm are determined by the robust features extraction
and components in network architecture. To address this issue, we will present
a network architecture derived from the loss to maximize conditional
log-likelihood by optimizing the lower bound with a proper approximate
posterior that has shown impressive performance in several generative models.
In addition, by extending the layer of latent variables to multiple layers, the
network is able to learn robust features on scale with no task-specific
regularization or data augmentation. We provide a detailed analysis and show
the results on three public benchmark datasets to confirm the efficiency and
reliability of the proposed algorithm. In experiments, the proposed algorithm
significantly outperforms state-of-the-art methods in terms of both recall and
precision. Specifically, it achieves an H-mean of 95.12 and 96.78 on ICDAR 2011
and ICDAR 2013, respectively.
- Abstract(参考訳): ディープニューラルネットワークに基づくシーンテキスト検出は、ここ数年で大きく進歩している。
しかし、アルゴリズムの性能はネットワークアーキテクチャのロバストな特徴抽出とコンポーネントによって決定されるため、従来の最先端の手法は、挑戦的な公開ベンチマークを扱う際にも不足する可能性がある。
この問題に対処するため、複数の生成モデルにおいて顕著な性能を示す近似後部で下界を最適化し、条件付きログの最大化を図ったネットワークアーキテクチャを提案する。
さらに、潜伏変数の層を複数の層に拡張することで、ネットワークはタスク固有の正規化やデータ拡張なしに、大規模に堅牢な機能を学ぶことができる。
提案アルゴリズムの効率と信頼性を確認するために,3つの公開ベンチマークデータセットについて詳細な分析を行い,その結果を示す。
実験では,提案アルゴリズムはリコールと精度の両面で最先端の手法を著しく上回っている。
具体的には、ICDAR 2011 と ICDAR 2013 でそれぞれ 95.12 と 96.78 の H 平均を達成する。
関連論文リスト
- Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - Adaptive Anomaly Detection in Network Flows with Low-Rank Tensor Decompositions and Deep Unrolling [9.20186865054847]
異常検出(AD)は、将来の通信システムのレジリエンスを確保するための重要な要素として、ますます認識されている。
この研究は、不完全測定を用いたネットワークフローにおけるADについて考察する。
本稿では,正規化モデル適合性に基づくブロック帰属凸近似アルゴリズムを提案する。
ベイズ的アプローチに触発されて、我々はモデルアーキテクチャを拡張し、フローごとのオンライン適応とステップごとの統計処理を行う。
論文 参考訳(メタデータ) (2024-09-17T19:59:57Z) - Event-Stream Super Resolution using Sigma-Delta Neural Network [0.10923877073891444]
イベントカメラは、それらが収集するデータの低解像度で疎結合で非同期な性質のため、ユニークな課題を示す。
現在のイベント超解像アルゴリズムは、イベントカメラによって生成された異なるデータ構造に対して完全に最適化されていない。
バイナリスパイクをSigma Delta Neural Networks(SDNNs)と統合する手法を提案する
論文 参考訳(メタデータ) (2024-08-13T15:25:18Z) - Malicious Internet Entity Detection Using Local Graph Inference [0.4893345190925178]
大規模ネットワークにおける悪意ある行動の検出は、コンピュータセキュリティにおける機械学習にとって難しい問題である。
現在のサイバーセクト対応アプローチはまだ表現力に制限があるが、他の領域で成功した手法は大量のデータに対してうまくスケールしない。
本研究では,ネットワークエンティティ間の相互作用を異種グラフとしてモデル化するグラフデータから学習する新たな視点を提案する。
論文 参考訳(メタデータ) (2024-08-06T16:35:25Z) - Human Semantic Segmentation using Millimeter-Wave Radar Sparse Point
Clouds [3.3888257250564364]
本稿では,ミリ波レーダの粗い逐次点雲のセマンティックセグメンテーションのためのフレームワークを提案する。
mmWaveデータの空間的特徴と時間的トポロジ的特徴は依然として問題である。
グラフ構造とトポロジ的特徴をポイントクラウドに導入し,セマンティックセグメンテーションフレームワークを提案する。
我々のモデルは、$mathbf82.31%$でカスタムデータセットの平均精度を達成し、最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-04-27T12:28:06Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Bayesian Optimization with Machine Learning Algorithms Towards Anomaly
Detection [66.05992706105224]
本稿では,ベイズ最適化手法を用いた効果的な異常検出フレームワークを提案する。
ISCX 2012データセットを用いて検討したアルゴリズムの性能を評価する。
実験結果から, 精度, 精度, 低コストアラームレート, リコールの観点から, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-05T19:29:35Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。