論文の概要: Thumbnail: A Novel Data Augmentation for Convolutional Neural Network
- arxiv url: http://arxiv.org/abs/2103.05342v1
- Date: Tue, 9 Mar 2021 10:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-10 14:58:01.152396
- Title: Thumbnail: A Novel Data Augmentation for Convolutional Neural Network
- Title(参考訳): Thumbnail: 畳み込みニューラルネットワークのための新しいデータ拡張
- Authors: Tianshu Xie, Xuan Cheng, Minghui Liu, Jiali Deng, Xiaomin Wang, Ming
Liu
- Abstract要約: サムネイルと呼ばれる特定のサイズに画像を縮小し、元の画像のランダムな位置に貼り付けることで生成された画像を取得します。
生成された画像は元の画像情報の大部分を保持するが、サムネイルのグローバル情報も保持する。
サムネイルのアイデアは、Mixed Sample Data Augmentationと完全に統合できることに気付きました。
- 参考スコア(独自算出の注目度): 6.066543113636522
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a new data augmentation strategy named Thumbnail,
which aims to strengthen the network's capture of global features. We get a
generated image by reducing an image to a certain size, which is called as the
thumbnail, and pasting it in the random position of the original image. The
generated image not only retains most of the original image information but
also has the global information in the thumbnail. Furthermore, we find that the
idea of thumbnail can be perfectly integrated with Mixed Sample Data
Augmentation, so we paste the thumbnail in another image where the ground truth
labels are also mixed with a certain weight, which makes great achievements on
various computer vision tasks. Extensive experiments show that Thumbnail works
better than the state-of-the-art augmentation strategies across classification,
fine-grained image classification, and object detection. On ImageNet
classification, ResNet50 architecture with our method achieves 79.21% accuracy,
which is more than 2.89% improvement on the baseline.
- Abstract(参考訳): 本論文では、ネットワークによるグローバル機能のキャプチャを強化することを目的とした、Thumbnailという新しいデータ拡張戦略を提案する。
サムネイルと呼ばれる特定のサイズに画像を縮小し、元の画像のランダムな位置に貼り付けることで生成された画像を取得します。
生成された画像は、元の画像情報の大部分を保持するだけでなく、サムネイル内のグローバル情報も保持する。
さらに,サムネイルのアイデアはサンプルデータの混合増補と完全に統合可能であることを見出し,基底真理ラベルを一定の重みで混合した別の画像にサムネイルを貼り付けることにより,様々なコンピュータビジョンタスクにおいて大きな成果が得られた。
広範囲にわたる実験により、Thumbnailは、分類、きめ細かい画像分類、およびオブジェクト検出にまたがる最先端の増強戦略よりも優れています。
ImageNetの分類では、ResNet50アーキテクチャは79.21%の精度でベースラインを2.89%以上改善している。
関連論文リスト
- xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Spatial-Semantic Collaborative Cropping for User Generated Content [32.490403964193014]
大量のユーザ生成コンテンツ(UGC)が毎日インターネットにアップロードされ、世界中の人々に表示される。
以前の方法では、収穫された画像の美学を単に考慮しつつ、コンテンツの完全性を無視しているだけであり、これは収穫に不可欠である。
本稿では,任意のユーザ生成コンテンツを対象とした空間意味協調作付けネットワーク(S2CNet)を提案する。
論文 参考訳(メタデータ) (2024-01-16T03:25:12Z) - Raw Image Reconstruction with Learned Compact Metadata [61.62454853089346]
本稿では,メタデータとしての潜在空間におけるコンパクトな表現をエンドツーエンドで学習するための新しいフレームワークを提案する。
提案する生画像圧縮方式は,グローバルな視点から重要な画像領域に適応的により多くのビットを割り当てることができることを示す。
論文 参考訳(メタデータ) (2023-02-25T05:29:45Z) - StyleAugment: Learning Texture De-biased Representations by Style
Augmentation without Pre-defined Textures [7.81768535871051]
最近の強力な視覚分類器はテクスチャに偏り、形状情報はモデルによって見過ごされている。
Stylized ImageNetと呼ばれるアートスタイルのトランスファー手法を用いて、トレーニング画像を増強する簡単な試みは、テクスチャバイアスを低減することができる。
しかし、Stylized ImageNetアプローチには、忠実度と多様性の2つの欠点がある。
ミニバッチからスタイルを拡張したStyleAugmentを提案する。
論文 参考訳(メタデータ) (2021-08-24T07:17:02Z) - Efficient Classification of Very Large Images with Tiny Objects [15.822654320750054]
Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。
本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-06-04T20:13:04Z) - Contrastive Learning with Stronger Augmentations [63.42057690741711]
本論文では,現在のコントラスト学習のアプローチを補完する,より強い拡張(A)によるコントラスト学習という汎用フレームワークを提案する。
ここでは、表現バンク上の弱強調画像と強拡張画像との間の分布のばらつきを利用して、強拡張クエリの検索を監督する。
実験では、強力な画像からの情報により、パフォーマンスが大幅に向上します。
論文 参考訳(メタデータ) (2021-04-15T18:40:04Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Gigapixel Histopathological Image Analysis using Attention-based Neural
Networks [7.1715252990097325]
圧縮経路と学習経路からなるCNN構造を提案する。
本手法は,グローバル情報とローカル情報の両方を統合し,入力画像のサイズに関して柔軟であり,弱い画像レベルラベルのみを必要とする。
論文 参考訳(メタデータ) (2021-01-25T10:18:52Z) - Focus Longer to See Better:Recursively Refined Attention for
Fine-Grained Image Classification [148.4492675737644]
Deep Neural Networkは、粗い粒度の画像分類タスクにおいて大きな進歩を見せている。
本稿では,これらの限界差に着目して,より代表的な特徴を抽出する。
我々のネットワークは、画像の一部に繰り返し焦点を合わせ、クラス間の小さな識別的部分を見つける。
論文 参考訳(メタデータ) (2020-05-22T03:14:18Z) - A U-Net Based Discriminator for Generative Adversarial Networks [86.67102929147592]
GAN(Generative Adversarial Network)のための代替U-Netベースの識別器アーキテクチャを提案する。
提案アーキテクチャにより,合成画像のグローバルコヒーレンスを維持しつつ,画素単位の詳細なフィードバックを生成元に提供することができる。
斬新な判別器は、標準分布と画像品質の指標の観点から、最先端の技術を向上する。
論文 参考訳(メタデータ) (2020-02-28T11:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。