論文の概要: Robust and Generalizable Visual Representation Learning via Random
Convolutions
- arxiv url: http://arxiv.org/abs/2007.13003v3
- Date: Mon, 3 May 2021 16:12:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:53:27.731590
- Title: Robust and Generalizable Visual Representation Learning via Random
Convolutions
- Title(参考訳): ランダム畳み込みによるロバストで一般化可能な視覚表現学習
- Authors: Zhenlin Xu, Deyi Liu, Junlin Yang, Colin Raffel, Marc Niethammer
- Abstract要約: ニューラルネットワークのロバスト性は、ランダム畳み込みをデータ拡張として利用することにより、大幅に改善できることを示す。
我々の手法は、より堅牢な事前訓練された視覚表現を提供することで、下流タスクの恩恵を受けることができる。
- 参考スコア(独自算出の注目度): 44.62476686073595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While successful for various computer vision tasks, deep neural networks have
shown to be vulnerable to texture style shifts and small perturbations to which
humans are robust. In this work, we show that the robustness of neural networks
can be greatly improved through the use of random convolutions as data
augmentation. Random convolutions are approximately shape-preserving and may
distort local textures. Intuitively, randomized convolutions create an infinite
number of new domains with similar global shapes but random local textures.
Therefore, we explore using outputs of multi-scale random convolutions as new
images or mixing them with the original images during training. When applying a
network trained with our approach to unseen domains, our method consistently
improves the performance on domain generalization benchmarks and is scalable to
ImageNet. In particular, in the challenging scenario of generalizing to the
sketch domain in PACS and to ImageNet-Sketch, our method outperforms
state-of-art methods by a large margin. More interestingly, our method can
benefit downstream tasks by providing a more robust pretrained visual
representation.
- Abstract(参考訳): 様々なコンピュータビジョンタスクで成功したが、ディープニューラルネットワークはテクスチャスタイルのシフトや、人間が堅牢な小さな摂動に弱いことが示されている。
本研究では,ランダム畳み込みをデータ拡張として用いることにより,ニューラルネットワークのロバスト性が大幅に向上することを示す。
ランダムな畳み込みは概して形状保存であり、局所的なテクスチャを歪める可能性がある。
直感的には、ランダム化された畳み込みは、同じ大域的な形状のランダムな局所的なテクスチャを持つ無限個の新しいドメインを生み出す。
そこで本研究では,マルチスケールのランダム畳み込みの出力を新しい画像として用いるか,トレーニング中に元の画像と混合するかを検討する。
未確認領域に対する我々のアプローチで訓練されたネットワークを適用すると、ドメイン一般化ベンチマークの性能は一貫して改善され、ImageNetにスケーラブルである。
特にPACSとImageNet-Sketchのスケッチ領域に一般化する難しいシナリオでは,我々の手法は最先端の手法よりも大きなマージンで優れている。
さらに興味深いのは,より堅牢な事前学習された視覚的表現を提供することで,下流タスクのメリットを享受できることだ。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Self-Supervised Single-Image Deconvolution with Siamese Neural Networks [6.138671548064356]
画像再構成における逆問題は、未知のノイズ特性によって根本的に複雑である。
ディープラーニングの手法は、ノイズのフレキシブルなパラメトリゼーションを可能にし、データから直接その特性を学習する。
我々は3次元デコンボリューションタスクにおけるトレーニング速度アップを提供する高速フーリエ変換畳み込み問題に対処する。
論文 参考訳(メタデータ) (2023-08-18T09:51:11Z) - GRIG: Few-Shot Generative Residual Image Inpainting [27.252855062283825]
そこで本研究では,高画質な残像塗装法を新たに提案する。
中心となる考え方は、特徴抽出のために畳み込みニューラルネットワーク(CNN)を組み込んだ反復的残留推論手法を提案することである。
また, 忠実なテクスチャと詳細な外観を創出するための, フォージェリーパッチ対逆訓練戦略を提案する。
論文 参考訳(メタデータ) (2023-04-24T12:19:06Z) - DELAD: Deep Landweber-guided deconvolution with Hessian and sparse prior [0.22940141855172028]
本稿では,古典的反復法をディープラーニングアプリケーションに組み込んだ非盲検画像デコンボリューションモデルを提案する。
このアルゴリズムは、トレーニング可能な畳み込み層と統合され、復元された画像構造と詳細を強化する。
論文 参考訳(メタデータ) (2022-09-30T11:15:03Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。