Fugu-MT 論文翻訳(概要): Efficient Classification of Very Large Images with Tiny Objects

論文の概要: Efficient Classification of Very Large Images with Tiny Objects

arxiv url: http://arxiv.org/abs/2106.02694v1
Date: Fri, 4 Jun 2021 20:13:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-08 18:30:17.720102
Title: Efficient Classification of Very Large Images with Tiny Objects
Title（参考訳）: Tiny Objectsを用いた超大型画像の効率的な分類
Authors: Fanjie Kong, Ricardo Henao
Abstract要約: Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
参考スコア（独自算出の注目度）: 15.822654320750054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: An increasing number of applications in the computer vision domain, specially, in medical imaging and remote sensing, are challenging when the goal is to classify very large images with tiny objects. More specifically, these type of classification tasks face two key challenges: $i$) the size of the input image in the target dataset is usually in the order of megapixels, however, existing deep architectures do not easily operate on such big images due to memory constraints, consequently, we seek a memory-efficient method to process these images; and $ii$) only a small fraction of the input images are informative of the label of interest, resulting in low region of interest (ROI) to image ratio. However, most of the current convolutional neural networks (CNNs) are designed for image classification datasets that have relatively large ROIs and small image size (sub-megapixel). Existing approaches have addressed these two challenges in isolation. We present an end-to-end CNN model termed Zoom-In network that leverages hierarchical attention sampling for classification of large images with tiny objects using a single GPU. We evaluate our method on two large-image datasets and one gigapixel dataset. Experimental results show that our model achieves higher accuracy than existing methods while requiring less computing resources.
Abstract（参考訳）: コンピュータビジョン領域、特に医用画像やリモートセンシングにおけるアプリケーションの増加は、非常に大きな画像を小さな物体に分類することを目的としているときに困難である。 More specifically, these type of classification tasks face two key challenges: $i$) the size of the input image in the target dataset is usually in the order of megapixels, however, existing deep architectures do not easily operate on such big images due to memory constraints, consequently, we seek a memory-efficient method to process these images; and $ii$) only a small fraction of the input images are informative of the label of interest, resulting in low region of interest (ROI) to image ratio. しかし、現在の畳み込みニューラルネットワーク(cnns)のほとんどは、比較的大きなroisと小さな画像サイズ(サブメガピクセル)を持つ画像分類データセット用に設計されている。既存のアプローチでは、これらの2つの課題に分離されている。単一GPUを用いた大規模画像の分類に階層的アテンションサンプリングを利用する、Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを提案する。本手法を2つの大規模画像データセットと1ギガピクセルデータセットで評価した。実験結果から,本モデルでは計算資源の少ない既存手法よりも精度が高いことがわかった。

関連論文リスト

VisionGRU: A Linear-Complexity RNN Model for Efficient Image Analysis [8.10783983193165]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は画像解析の主流モデルである。本稿では,効率的な画像分類のための新しいRNNアーキテクチャであるVisionGRUを紹介する。
論文参考訳（メタデータ） (2024-12-24T05:27:11Z)
Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。 PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-06T17:59:10Z)
xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文参考訳（メタデータ） (2024-03-04T10:29:58Z)
T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文参考訳（メタデータ） (2023-05-12T04:10:42Z)
AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。 AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文参考訳（メタデータ） (2022-02-18T10:14:45Z)
Leveraging Image Complexity in Macro-Level Neural Network Design for Medical Image Segmentation [3.974175960216864]
画像の複雑さは、与えられたデータセットに最適なものを選択するためのガイドラインとして利用できることを示す。高複雑性データセットの場合、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている可能性がある。
論文参考訳（メタデータ） (2021-12-21T09:49:47Z)
You Better Look Twice: a new perspective for designing accurate detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文参考訳（メタデータ） (2021-07-21T12:39:51Z)
Gigapixel Histopathological Image Analysis using Attention-based Neural Networks [7.1715252990097325]
圧縮経路と学習経路からなるCNN構造を提案する。本手法は,グローバル情報とローカル情報の両方を統合し,入力画像のサイズに関して柔軟であり,弱い画像レベルラベルのみを必要とする。
論文参考訳（メタデータ） (2021-01-25T10:18:52Z)
An Evolution of CNN Object Classifiers on Low-Resolution Images [0.4129225533930965]
低画質画像からのオブジェクト分類は、対象色、アスペクト比、乱れ背景のばらつきに対して困難である。深層畳み込みニューラルネットワーク(DCNN)は、高解像度画像からオブジェクト分類の課題に直面する非常に強力なシステムとして実証されています。本稿では,DCNNアーキテクチャを用いて低品質画像を正確に分類する最適アーキテクチャについて検討する。
論文参考訳（メタデータ） (2021-01-03T18:44:23Z)
CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。 PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2020-03-24T04:55:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。