論文の概要: Exploring Architectures for CNN-Based Word Spotting
- arxiv url: http://arxiv.org/abs/1806.10866v2
- Date: Tue, 12 Mar 2024 14:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 19:26:19.487865
- Title: Exploring Architectures for CNN-Based Word Spotting
- Title(参考訳): CNNに基づく単語スポッティングのためのアーキテクチャの探索
- Authors: Eugen Rusakov, Sebastian Sudholt, Fabian Wolf, Gernot A. Fink
- Abstract要約: 最近の研究では、畳み込みニューラルネットワークがこの分野を乗っ取っている。
CNNがワードスポッティングにどの程度複雑でなければならないのか?
最近成功したTPP-PHOCNetはResidual Network、Densely Connected Convolutional Network、LeNetアーキテクチャと比較される。
- 参考スコア(独自算出の注目度): 2.949446809950691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal in word spotting is to retrieve parts of document images which are
relevant with respect to a certain user-defined query. The recent past has seen
attribute-based Convolutional Neural Networks take over this field of research.
As is common for other fields of computer vision, the CNNs used for this task
are already considerably deep. The question that arises, however, is: How
complex does a CNN have to be for word spotting? Are increasingly deeper models
giving increasingly better results or does performance behave asymptotically
for these architectures? On the other hand, can similar results be obtained
with a much smaller CNN? The goal of this paper is to give an answer to these
questions. Therefore, the recently successful TPP-PHOCNet will be compared to a
Residual Network, a Densely Connected Convolutional Network and a LeNet
architecture empirically. As will be seen in the evaluation, a complex model
can be beneficial for word spotting on harder tasks such as the IAM Offline
Database but gives no advantage for easier benchmarks such as the George
Washington Database.
- Abstract(参考訳): 単語スポッティングの目標は、特定のユーザ定義クエリに関連するドキュメントイメージの一部を取得することである。
最近の研究では、属性ベースの畳み込みニューラルネットワークがこの分野を乗っ取っている。
他のコンピュータビジョンの分野では一般的なように、このタスクに使用されるCNNは、すでにかなり深くなっている。
CNNがワードスポッティングにどの程度複雑でなければならないのか?
より深いモデルがより優れた結果をもたらすのか、それともこれらのアーキテクチャに漸近的にパフォーマンスが振舞うのか?
一方、非常に小さなCNNで同様の結果が得られるだろうか?
本論文の目的はこれらの疑問に答えることである。
したがって、最近成功したTPP-PHOCNetは、Residual Network、Densely Connected Convolutional Network、LeNetアーキテクチャを実証的に比較する。
評価で見られるように、複雑なモデルは、IAM Offline Databaseのようなより難しいタスクの単語スポッティングに有用であるが、George Washington Databaseのようなより簡単なベンチマークには利点がない。
関連論文リスト
- Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - No More Strided Convolutions or Pooling: A New CNN Building Block for
Low-Resolution Images and Small Objects [3.096615629099617]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし、画像が解像度の低いタスクやオブジェクトが小さいタスクでは、パフォーマンスが急速に低下する。
そこで我々は,SPD-Convと呼ばれる新しいCNNビルディングブロックを提案し,各ストリップ畳み込み層と各プール層に代えて提案する。
論文 参考訳(メタデータ) (2022-08-07T05:09:18Z) - SAR Despeckling Using Overcomplete Convolutional Networks [53.99620005035804]
スペックルはSAR画像を劣化させるため、リモートセンシングにおいて重要な問題である。
近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。
本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。
本稿では,合成および実SAR画像の非特定化手法と比較して,提案手法により非特定化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-31T15:55:37Z) - Recurrence along Depth: Deep Convolutional Neural Networks with
Recurrent Layer Aggregation [5.71305698739856]
本稿では,従来のレイヤからの情報を再利用して,現在のレイヤの特徴をよりよく抽出する方法を説明するために,レイヤアグリゲーションの概念を紹介する。
我々は,深層CNNにおける層構造を逐次的に利用することにより,RLA(recurrent layer aggregate)と呼ばれる非常に軽量なモジュールを提案する。
私たちのRLAモジュールは、ResNets、Xception、MobileNetV2など、多くの主要なCNNと互換性があります。
論文 参考訳(メタデータ) (2021-10-22T15:36:33Z) - Sifting out the features by pruning: Are convolutional networks the
winning lottery ticket of fully connected ones? [16.5745082442791]
このような「当選宝くじ」に印字を刻む帰納バイアスについて検討する。
残余ノード接続は入力空間において局所的であり、畳み込みネットワーク(CNN)に類似したパターンで構成されていることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:25:54Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - NetReAct: Interactive Learning for Network Summarization [60.18513812680714]
本論文では,テキストコーポラによる感覚生成のネットワーク可視化を支援する,新しいインタラクティブネットワーク要約アルゴリズムであるNetReActを提案する。
netreactが、他の非自明なベースラインよりも、隠れたパターンを明らかにする高品質な要約や視覚化の生成に成功していることを示す。
論文 参考訳(メタデータ) (2020-12-22T03:56:26Z) - When Deep Learning Meets Digital Image Correlation [0.0]
本研究の目的は、参照画像とデフォルメ画像のペアから変位場とひずみ場を抽出できるCNNの実装である。
StrainNet と呼ばれる CNN は,この目標を達成するために開発することができる。
主な成果は、StrainNetがそのような測定を成功させ、気象学的な性能と計算時間の点で競合する結果を達成することである。
論文 参考訳(メタデータ) (2020-09-02T19:26:05Z) - The Heterogeneity Hypothesis: Finding Layer-Wise Differentiated Network
Architectures [179.66117325866585]
我々は、通常見過ごされる設計空間、すなわち事前定義されたネットワークのチャネル構成を調整することを検討する。
この調整は、拡張ベースラインネットワークを縮小することで実現でき、性能が向上する。
画像分類、視覚追跡、画像復元のための様々なネットワークとデータセットで実験を行う。
論文 参考訳(メタデータ) (2020-06-29T17:59:26Z) - Hierarchically Compositional Tasks and Deep Convolutional Networks [9.790524827475206]
画像の局所的な構成を「決定論的スクランブル」によって破壊する視覚的課題の集合を考える。
オブジェクト認識では、予想通り、スクランブルは浅層または深層に完全に接続されたネットワークの性能に影響を与えない。
テクスチャー知覚とグローバルカラー推定は、これらのタスクに対応する基礎となる関数が階層的に局所的でないことを示す決定論的スクランブルにはるかに敏感である。
論文 参考訳(メタデータ) (2020-06-24T17:46:45Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。