論文の概要: On the Generalizability of Iterative Patch Selection for Memory-Efficient High-Resolution Image Classification
- arxiv url: http://arxiv.org/abs/2412.11237v1
- Date: Sun, 15 Dec 2024 16:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:21.894689
- Title: On the Generalizability of Iterative Patch Selection for Memory-Efficient High-Resolution Image Classification
- Title(参考訳): メモリ効率の高い高分解能画像分類のための反復的パッチ選択の一般化可能性について
- Authors: Max Riffi-Aslett, Christina Fell,
- Abstract要約: 大きな画像を小さな領域または小さな領域で分類することは、計算とメモリの制約のために困難である。
パッチ選択モジュールとしてIterative Patch Selection (IPS) を用いたメモリ効率の高いクロスアテンショントランスフォーマを用いた新しいテストベッドを用いて,これらの問題を探索する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Classifying large images with small or tiny regions of interest (ROI) is challenging due to computational and memory constraints. Weakly supervised memory-efficient patch selectors have achieved results comparable with strongly supervised methods. However, low signal-to-noise ratios and low entropy attention still cause overfitting. We explore these issues using a novel testbed on a memory-efficient cross-attention transformer with Iterative Patch Selection (IPS) as the patch selection module. Our testbed extends the megapixel MNIST benchmark to four smaller O2I (object-to-image) ratios ranging from 0.01% to 0.14% while keeping the canvas size fixed and introducing a noise generation component based on B\'ezier curves. Experimental results generalize the observations made on CNNs to IPS whereby the O2I threshold below which the classifier fails to generalize is affected by the training dataset size. We further observe that the magnitude of this interaction differs for each task of the Megapixel MNIST. For tasks "Maj" and "Top", the rate is at its highest, followed by tasks "Max" and "Multi" where in the latter, this rate is almost at 0. Moreover, results show that in a low data setting, tuning the patch size to be smaller relative to the ROI improves generalization, resulting in an improvement of + 15% for the megapixel MNIST and + 5% for the Swedish traffic signs dataset compared to the original object-to-patch ratios in IPS. Further outcomes indicate that the similarity between the thickness of the noise component and the digits in the megapixel MNIST gradually causes IPS to fail to generalize, contributing to previous suspicions.
- Abstract(参考訳): 小さい領域や小さい領域の関心領域(ROI)で大画像を分類することは、計算とメモリの制約のため難しい。
弱教師付きメモリ効率のパッチセレクタは、強い教師付き手法に匹敵する結果を得た。
しかし、信号対雑音比が低く、エントロピーの注意が低いことは、まだ過度な適合を引き起こす。
パッチ選択モジュールとしてIterative Patch Selection (IPS) を用いたメモリ効率の高いクロスアテンショントランスフォーマを用いた新しいテストベッドを用いて,これらの問題を探索する。
我々のテストベッドは、メガピクセルMNISTベンチマークを4つの小さなO2I(オブジェクト・ツー・イメージ)比(0.01%から0.14%)まで拡張し、キャンバスサイズを固定し、B'ezier曲線に基づくノイズ生成成分を導入する。
実験結果は、CNNで行った観測をIPSに一般化し、下記の分類器が一般化に失敗するO2I閾値は、トレーニングデータセットサイズに影響される。
さらに、この相互作用の大きさはメガピクセルMNISTの各タスクごとに異なることを観察する。
タスク "Maj" と "Top" は最高であり、タスク "Max" と "Multi" が続く。
さらに,低データ環境では,パッチサイズをROIに対して小さく調整することで一般化が向上し,その結果,メガピクセルMNISTが15%,スウェーデンの交通信号データセットが5%向上した。
さらなる結果は、メガピクセルMNISTのノイズ成分の厚さと桁との類似性が徐々にIPSの一般化に失敗し、以前の疑念に繋がることを示している。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Towards Efficient and Accurate CT Segmentation via Edge-Preserving Probabilistic Downsampling [2.1465347972460367]
限られたリソースやネットワークトレーニングの迅速化を必要とするイメージやラベルのダウンサンプリングは、小さなオブジェクトと薄いバウンダリの損失につながる。
これにより、セグメンテーションネットワークのイメージを正確に解釈し、詳細なラベルを予測する能力が損なわれ、元の解像度での処理と比較して性能が低下する。
エッジ保存型確率ダウンサンプリング(EPD)という新しい手法を提案する。
ローカルウィンドウ内のクラス不確実性を利用してソフトラベルを生成し、ウィンドウサイズがダウンサンプリング係数を規定する。
論文 参考訳(メタデータ) (2024-04-05T10:01:31Z) - Learning county from pixels: Corn yield prediction with attention-weighted multiple instance learning [8.573309028586168]
本研究は,各郡をピクセルレベルで調査し,各郡内の詳細な情報を活用するために複数のインスタンス学習を適用した。
さらに,提案手法は,特徴データセットと作物マスクとの一貫性のない分解による「混合画素」問題に対処する。
開発されたモデルは、過去5年間で米国のコーンベルトで、他の4つの機械学習モデルを上回っている。
論文 参考訳(メタデータ) (2023-12-02T02:09:31Z) - Hierarchical Transformer for Survival Prediction Using Multimodality
Whole Slide Images and Genomics [63.76637479503006]
下流タスクのためのギガピクセルレベルのスライド病理画像(WSI)の良質な表現を学習することが重要である。
本稿では,病理画像と対応する遺伝子間の階層的マッピングを学習する階層型マルチモーダルトランスフォーマーフレームワークを提案する。
より優れたWSI表現能力を維持しながら、ベンチマーク手法と比較してGPUリソースが少ないアーキテクチャです。
論文 参考訳(メタデータ) (2022-11-29T23:47:56Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - New wrapper method based on normalized mutual information for dimension
reduction and classification of hyperspectral images [0.0]
正規化相互情報(NMI)と誤り確率(PE)に基づく新しいラッパー手法を提案する。
NASAのAVIRIS(Airborne Visible/Infrared Imaging Spectrometer Sensor)が捉えた、2つの挑戦的なハイパースペクトルベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2022-10-25T21:17:11Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Decision-based Black-box Attack Against Vision Transformers via
Patch-wise Adversarial Removal [42.032749850729246]
我々は、Patch-wise Adrialectomy (PAR) と呼ばれる、VTTに対する新たな決定ベースのブラックボックス攻撃を提案する。
PARは、各パッチのノイズサイズとノイズ感度を記録し、ノイズ圧縮の最も高いクエリ値でパッチを選択する。
ImageNet-21k、ILSVRC-2012、Tiny-Imagenetデータセットの実験では、PARはクエリ数と同じ平均で、摂動の非常に低い大きさを達成している。
論文 参考訳(メタデータ) (2021-12-07T04:46:13Z) - Efficient Classification of Very Large Images with Tiny Objects [15.822654320750054]
Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。
本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-06-04T20:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。