論文の概要: Efficient Classification of Very Large Images with Tiny Objects
- arxiv url: http://arxiv.org/abs/2106.02694v1
- Date: Fri, 4 Jun 2021 20:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:30:17.720102
- Title: Efficient Classification of Very Large Images with Tiny Objects
- Title(参考訳): Tiny Objectsを用いた超大型画像の効率的な分類
- Authors: Fanjie Kong, Ricardo Henao
- Abstract要約: Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。
本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
- 参考スコア(独自算出の注目度): 15.822654320750054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An increasing number of applications in the computer vision domain,
specially, in medical imaging and remote sensing, are challenging when the goal
is to classify very large images with tiny objects. More specifically, these
type of classification tasks face two key challenges: $i$) the size of the
input image in the target dataset is usually in the order of megapixels,
however, existing deep architectures do not easily operate on such big images
due to memory constraints, consequently, we seek a memory-efficient method to
process these images; and $ii$) only a small fraction of the input images are
informative of the label of interest, resulting in low region of interest (ROI)
to image ratio. However, most of the current convolutional neural networks
(CNNs) are designed for image classification datasets that have relatively
large ROIs and small image size (sub-megapixel). Existing approaches have
addressed these two challenges in isolation. We present an end-to-end CNN model
termed Zoom-In network that leverages hierarchical attention sampling for
classification of large images with tiny objects using a single GPU. We
evaluate our method on two large-image datasets and one gigapixel dataset.
Experimental results show that our model achieves higher accuracy than existing
methods while requiring less computing resources.
- Abstract(参考訳): コンピュータビジョン領域、特に医用画像やリモートセンシングにおけるアプリケーションの増加は、非常に大きな画像を小さな物体に分類することを目的としているときに困難である。
More specifically, these type of classification tasks face two key challenges: $i$) the size of the input image in the target dataset is usually in the order of megapixels, however, existing deep architectures do not easily operate on such big images due to memory constraints, consequently, we seek a memory-efficient method to process these images; and $ii$) only a small fraction of the input images are informative of the label of interest, resulting in low region of interest (ROI) to image ratio.
しかし、現在の畳み込みニューラルネットワーク(cnns)のほとんどは、比較的大きなroisと小さな画像サイズ(サブメガピクセル)を持つ画像分類データセット用に設計されている。
既存のアプローチでは、これらの2つの課題に分離されている。
単一GPUを用いた大規模画像の分類に階層的アテンションサンプリングを利用する、Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを提案する。
本手法を2つの大規模画像データセットと1ギガピクセルデータセットで評価した。
実験結果から,本モデルでは計算資源の少ない既存手法よりも精度が高いことがわかった。
関連論文リスト
- xT: Nested Tokenization for Larger Context in Large Images [84.10884255952409]
我々は、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのためのシンプルなフレームワークであるxTを紹介する。
我々は、真の大きな画像を理解する視覚モデルの能力を正確に反映したベンチマークデータセットのセットを選択する。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Local Contrast and Global Contextual Information Make Infrared Small
Object Salient Again [5.324958606516871]
赤外線小物体検出(ISOS)は、赤外画像中の乱雑な背景から、いくつかのピクセルでしかカバーされていない小さな物体を分割することを目的としている。
1) 十分な強度、形状、テクスチャ情報がない小さなオブジェクト、2) 深層ニューラルネットワークのような検出モデルが、連続的なダウンサンプリングを通じて高レベルのセマンティック特徴とイメージレベルの受容フィールドを得るプロセスにおいて、小さなオブジェクトは、容易に失われる。
本稿では,この2つの問題をうまく処理できるUCFNetと呼ばれるISOSの信頼性検出モデルを提案する。
いくつかの公開データセットの実験により、我々の手法は現状を大きく上回っていることが示された。
論文 参考訳(メタデータ) (2023-01-28T05:18:13Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Leveraging Image Complexity in Macro-Level Neural Network Design for
Medical Image Segmentation [3.974175960216864]
画像の複雑さは、与えられたデータセットに最適なものを選択するためのガイドラインとして利用できることを示す。
高複雑性データセットの場合、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている可能性がある。
論文 参考訳(メタデータ) (2021-12-21T09:49:47Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Gigapixel Histopathological Image Analysis using Attention-based Neural
Networks [7.1715252990097325]
圧縮経路と学習経路からなるCNN構造を提案する。
本手法は,グローバル情報とローカル情報の両方を統合し,入力画像のサイズに関して柔軟であり,弱い画像レベルラベルのみを必要とする。
論文 参考訳(メタデータ) (2021-01-25T10:18:52Z) - An Evolution of CNN Object Classifiers on Low-Resolution Images [0.4129225533930965]
低画質画像からのオブジェクト分類は、対象色、アスペクト比、乱れ背景のばらつきに対して困難である。
深層畳み込みニューラルネットワーク(DCNN)は、高解像度画像からオブジェクト分類の課題に直面する非常に強力なシステムとして実証されています。
本稿では,DCNNアーキテクチャを用いて低品質画像を正確に分類する最適アーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-01-03T18:44:23Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。