論文の概要: Hard-Attention for Scalable Image Classification
- arxiv url: http://arxiv.org/abs/2102.10212v1
- Date: Sat, 20 Feb 2021 00:21:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:01:32.707241
- Title: Hard-Attention for Scalable Image Classification
- Title(参考訳): スケーラブル画像分類のためのハードアテンション
- Authors: Athanasios Papadopoulos, Pawe{\l} Korus, Nasir Memon
- Abstract要約: マルチスケールハードアテンションは,この問題に対して有効な解決法であることを示す。
トップダウン方式で画像ピラミッドを横断する新しいアーキテクチャであるTNetを提案する。
本モデルでは,画像レベルのラベルのみを境界ボックスなしで使用しながら,高解像度コンテンツのごく一部にのみ対応できることが示される。
- 参考スコア(独自算出の注目度): 16.8359205877213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep neural networks (DNNs) are typically optimized for a specific input
resolution (e.g. $224 \times 224$ px) and their adoption to inputs of higher
resolution (e.g., satellite or medical images) remains challenging, as it leads
to excessive computation and memory overhead, and may require substantial
engineering effort (e.g., streaming). We show that multi-scale hard-attention
can be an effective solution to this problem. We propose a novel architecture,
TNet, which traverses an image pyramid in a top-down fashion, visiting only the
most informative regions along the way. We compare our model against strong
hard-attention baselines, achieving a better trade-off between resources and
accuracy on ImageNet. We further verify the efficacy of our model on satellite
images (fMoW dataset) of size up to $896 \times 896$ px. In addition, our
hard-attention mechanism guarantees predictions with a degree of
interpretability, without extra cost beyond inference. We also show that we can
reduce data acquisition and annotation cost, since our model attends only to a
fraction of the highest resolution content, while using only image-level labels
without bounding boxes.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は通常、特定の入力解像度(例えば、)に最適化される。
224 \times 224$ px) と高解像度(衛星や医療画像など)の入力への採用は、過度の計算とメモリオーバーヘッドにつながるため、依然として困難であり、かなりのエンジニアリング作業(ストリーミングなど)が必要になる。
マルチスケールハードアテンションは,この問題に対して有効な解決法であることを示す。
TNetは、画像ピラミッドをトップダウンで横断し、途中で最も有益な地域だけを訪問する新しいアーキテクチャを提案します。
当社のモデルは、強力なハードアテンションベースラインと比較し、ImageNet上でのリソースと精度のトレードオフを改善する。
さらに、896 \times 896 $ pxまでのサイズの衛星画像(fMoWデータセット)に対するモデルの有効性を検証します。
さらに、我々のハードアテンションメカニズムは、推論以上のコストなしで、ある程度の解釈可能性で予測を保証する。
また,バウンディングボックスを使わずに画像レベルラベルのみを使用して,高分解能コンテンツのごく一部しか利用できないため,データ取得やアノテーションコストの削減も可能であることを示した。
関連論文リスト
- $\infty$-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions [58.42011190989414]
無限次元における新しい条件拡散モデル、制御可能な大画像合成のための$infty$-Brushを導入する。
我々の知る限り、$infty$-Brushは関数空間における最初の条件拡散モデルであり、最大4096times4096$ピクセルの任意の解像度で画像を制御できる。
論文 参考訳(メタデータ) (2024-07-20T00:04:49Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Large-scale Weakly Supervised Learning for Road Extraction from
Satellite Imagery [9.28701721082481]
本稿では,OpenStreetMapの道路データを弱いラベルや大規模衛星画像として活用して,事前学習セマンティックセグメンテーションモデルを提案する。
私たちのモデルは、広く使われているDeepGlobeロードデータセットの最大100倍のデータを使用し、現在のDeepGlobeリーダーボードのトップパフォーマーを超えています。
論文 参考訳(メタデータ) (2023-09-14T16:16:57Z) - ImageNet-Hard: The Hardest Images Remaining from a Study of the Power of
Zoom and Spatial Biases in Image Classification [9.779748872936912]
入力画像の適切なフレーミングは、イメージネット画像の98.91%の正確な分類につながることを示す。
本稿では,モデルにズームイン操作を明示的に実行させることにより,分類精度を向上させるテスト時間拡張(TTA)手法を提案する。
論文 参考訳(メタデータ) (2023-04-11T23:55:50Z) - SDM: Spatial Diffusion Model for Large Hole Image Inpainting [106.90795513361498]
本稿では,空間拡散モデル(SDM)を提案する。
また,提案手法は非結合確率モデルと空間拡散スキームにより,高品質な大穴工法を実現する。
論文 参考訳(メタデータ) (2022-12-06T13:30:18Z) - Unsupervised Super-Resolution of Satellite Imagery for High Fidelity
Material Label Transfer [78.24493844353258]
逆学習を用いた教師なし領域適応型アプローチを提案する。
我々は,少量の高解像度データ(ソースドメイン)から情報を抽出し,それを用いて低解像度画像(ターゲットドメイン)の超解像化を目指す。
論文 参考訳(メタデータ) (2021-05-16T00:57:43Z) - Efficient Poverty Mapping using Deep Reinforcement Learning [75.6332944247741]
高解像度衛星画像と機械学習は多くのサステナビリティ関連タスクで有用であることが証明されている。
高解像度画像によって得られる精度は、そのような画像が大規模に購入するのに非常にコストがかかるため、コストがかかる。
コストの高い高解像度画像の取得場所を動的に識別するために,自由な低解像度画像を用いる強化学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-07T18:30:57Z) - Contextual Residual Aggregation for Ultra High-Resolution Image
Inpainting [12.839962012888199]
そこで本稿では,CRA(Contextual Residual Aggregation)機構を提案する。
CRA機構は、コンテキストパッチからの残基の重み付けにより、欠落した内容に対して高周波残基を生成する。
提案手法は,解像度512×512の小型画像に対して学習し,高解像度画像に対する推論を行い,良好な塗装品質を実現する。
論文 参考訳(メタデータ) (2020-05-19T18:55:32Z) - Learning When and Where to Zoom with Deep Reinforcement Learning [101.79271767464947]
そこで本稿では,高解像度のデータをペアで,安価で低解像度の画像に対していつ,どこで使用・取得するかを識別する強化学習手法を提案する。
我々は、CIFAR10、CIFAR100、ImageNet、fMoWデータセット上で実験を行い、全高解像度画像を使用するモデルと同等の精度を維持しながら、非常に少ない高解像度データを使用する。
論文 参考訳(メタデータ) (2020-03-01T07:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。