論文の概要: UltraMNIST Classification: A Benchmark to Train CNNs for Very Large
Images
- arxiv url: http://arxiv.org/abs/2206.12681v1
- Date: Sat, 25 Jun 2022 16:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 05:04:35.968636
- Title: UltraMNIST Classification: A Benchmark to Train CNNs for Very Large
Images
- Title(参考訳): UltraMNISTの分類: 非常に大きな画像のためのCNNのトレーニングベンチマーク
- Authors: Deepak K. Gupta, Udbhav Bamba, Abhishek Thakur, Akash Gupta, Suraj
Sharan, Ertugrul Demir and Dilip K. Prasad
- Abstract要約: UltraMNIST データセット(UltraMNIST データセット)は、このタスクのための単純だが代表的なベンチマークデータセットである。
この問題には「UltraMNIST分類」と「Budget-aware UltraMNIST分類」の2種類がある。
- 参考スコア(独自算出の注目度): 17.425190391479312
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Convolutional neural network (CNN) approaches available in the current
literature are designed to work primarily with low-resolution images. When
applied on very large images, challenges related to GPU memory, smaller
receptive field than needed for semantic correspondence and the need to
incorporate multi-scale features arise. The resolution of input images can be
reduced, however, with significant loss of critical information. Based on the
outlined issues, we introduce a novel research problem of training CNN models
for very large images, and present 'UltraMNIST dataset', a simple yet
representative benchmark dataset for this task. UltraMNIST has been designed
using the popular MNIST digits with additional levels of complexity added to
replicate well the challenges of real-world problems. We present two variants
of the problem: 'UltraMNIST classification' and 'Budget-aware UltraMNIST
classification'. The standard UltraMNIST classification benchmark is intended
to facilitate the development of novel CNN training methods that make the
effective use of the best available GPU resources. The budget-aware variant is
intended to promote development of methods that work under constrained GPU
memory. For the development of competitive solutions, we present several
baseline models for the standard benchmark and its budget-aware variant. We
study the effect of reducing resolution on the performance and present results
for baseline models involving pretrained backbones from among the popular
state-of-the-art models. Finally, with the presented benchmark dataset and the
baselines, we hope to pave the ground for a new generation of CNN methods
suitable for handling large images in an efficient and resource-light manner.
- Abstract(参考訳): 現在の文献で利用可能な畳み込みニューラルネットワーク(CNN)アプローチは、主に低解像度の画像を扱うように設計されている。
非常に大きなイメージに適用すると、gpuメモリに関する課題、セマンティック対応に必要なより小さな受容フィールド、マルチスケール機能の導入の必要性が発生する。
しかし、入力画像の解像度は、重要な情報が著しく失われるため、小さくすることができる。
概説した課題に基づき、非常に大きな画像のためのCNNモデルをトレーニングする新たな研究問題を導入し、このタスクの単純かつ代表的なベンチマークデータセットであるUltraMNISTデータセットを提示する。
UltraMNISTは、現実世界の問題の課題をうまく再現するために、さらなる複雑さを付加した人気のあるMNIST桁を用いて設計されている。
この問題には,「UltraMNIST分類」と「Budget-aware UltraMNIST分類」の2種類がある。
標準のUltraMNIST分類ベンチマークは、最高のGPUリソースを効果的に活用する新しいCNNトレーニング手法の開発を容易にすることを目的としている。
予算対応型は、制約付きGPUメモリの下で機能するメソッドの開発を促進することを意図している。
競争力のあるソリューションを開発するために、標準ベンチマークのベースラインモデルと予算対応モデルを提案する。
本研究では, 既訓練バックボーンを含むベースラインモデルの性能と性能に及ぼす分解能の低減効果について検討した。
最後に,提案したベンチマークデータセットとベースラインを併用して,大規模画像の処理に適した新しい世代のCNN手法を,効率的かつリソースライトで実現したいと考えている。
関連論文リスト
- Few-shot Online Anomaly Detection and Segmentation [29.693357653538474]
本稿では,難易度の高いオンライン異常検出・セグメンテーション(FOADS)の課題に対処することに焦点を当てる。
FOADSフレームワークでは、モデルを数ショットの通常のデータセットでトレーニングし、その後、正常サンプルと異常サンプルの両方を含む未ラベルのストリーミングデータを活用することで、その能力の検査と改善を行う。
限られたトレーニングサンプルを用いた性能向上のために,ImageNetで事前学習したCNNから抽出したマルチスケール特徴埋め込みを用いて,ロバストな表現を得る。
論文 参考訳(メタデータ) (2024-03-27T02:24:00Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z) - A Domain Decomposition-Based CNN-DNN Architecture for Model Parallel Training Applied to Image Recognition Problems [0.0]
モデル並列トレーニング戦略を自然にサポートする新しいCNN-DNNアーキテクチャを提案する。
提案手法は,グローバルモデルと比較して,必要なトレーニング時間を著しく短縮することができる。
その結果,提案手法は,基礎となる分類問題の精度向上にも有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-13T18:06:59Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - LR-Net: A Block-based Convolutional Neural Network for Low-Resolution
Image Classification [0.0]
ノイズや低解像度の画像から低レベル特徴と大域特徴の両方を学習するためのブロックで構成された,新しい画像分類アーキテクチャを開発した。
ブロックの設計は,性能向上とパラメータサイズ削減のために,Residual ConnectionとInceptionモジュールの影響を強く受けていた。
我々は、提示されたアーキテクチャが既存の最先端畳み込みニューラルネットワークよりも高速で正確であることを示す詳細なテストを実施した。
論文 参考訳(メタデータ) (2022-07-19T20:01:11Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Pyramid Grafting Network for One-Stage High Resolution Saliency
Detection [29.013012579688347]
我々は、異なる解像度画像から特徴を独立して抽出する、Praamid Grafting Network (PGNet) と呼ばれるワンステージフレームワークを提案する。
CNNブランチが壊れた詳細情報をよりホモロジーに組み合わせられるように、アテンションベースのクロスモデルグラフティングモジュール (CMGM) が提案されている。
我々は,4K-8K解像度で5,920個の画像を含む超高分解能塩度検出データセットUHRSDを新たに提供した。
論文 参考訳(メタデータ) (2022-04-11T12:22:21Z) - Single Image Internal Distribution Measurement Using Non-Local
Variational Autoencoder [11.985083962982909]
本稿では,非局所変分オートエンコーダ(textttNLVAE)という画像固有解を提案する。
textttNLVAEは,非局所領域からの非絡み合った情報を用いて高解像度画像を再構成する自己教師型戦略として導入された。
7つのベンチマークデータセットによる実験結果から,textttNLVAEモデルの有効性が示された。
論文 参考訳(メタデータ) (2022-04-02T18:43:55Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。