論文の概要: Mimicking Human Visual Development for Learning Robust Image Representations
- arxiv url: http://arxiv.org/abs/2512.14360v1
- Date: Tue, 16 Dec 2025 12:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.714877
- Title: Mimicking Human Visual Development for Learning Robust Image Representations
- Title(参考訳): ロバストな画像表現学習のための人間の視覚開発
- Authors: Ankita Raj, Kaashika Prajaapat, Tapan Kumar Gandhi, Chetan Arora,
- Abstract要約: 本稿では,畳み込みニューラルネットワークの一般化とロバスト性を改善するために,プログレッシブなぼやけたカリキュラムを提案する。
当社のアプローチでは,高頻度アーティファクトよりもグローバルな構造を優先し,分散シフトやノイズの多い入力に対するロバスト性を向上する。
提案するカリキュラムは,CIFAR-10-Cで8.30%,ImageNet-100-Cで4.43%,平均劣化誤差(mCE)を最大で8.30%削減することを示した。
- 参考スコア(独自算出の注目度): 4.210503867117539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The human visual system is remarkably adept at adapting to changes in the input distribution; a capability modern convolutional neural networks (CNNs) still struggle to match. Drawing inspiration from the developmental trajectory of human vision, we propose a progressive blurring curriculum to improve the generalization and robustness of CNNs. Human infants are born with poor visual acuity, gradually refining their ability to perceive fine details. Mimicking this process, we begin training CNNs on highly blurred images during the initial epochs and progressively reduce the blur as training advances. This approach encourages the network to prioritize global structures over high-frequency artifacts, improving robustness against distribution shifts and noisy inputs. Challenging prior claims that blurring in the initial training epochs imposes a stimulus deficit and irreversibly harms model performance, we reveal that early-stage blurring enhances generalization with minimal impact on in-domain accuracy. Our experiments demonstrate that the proposed curriculum reduces mean corruption error (mCE) by up to 8.30% on CIFAR-10-C and 4.43% on ImageNet-100-C datasets, compared to standard training without blurring. Unlike static blur-based augmentation, which applies blurred images randomly throughout training, our method follows a structured progression, yielding consistent gains across various datasets. Furthermore, our approach complements other augmentation techniques, such as CutMix and MixUp, and enhances both natural and adversarial robustness against common attack methods. Code is available at https://github.com/rajankita/Visual_Acuity_Curriculum.
- Abstract(参考訳): 人間の視覚系は入力分布の変化に適応するのに非常に適しており、現代の畳み込みニューラルネットワーク(CNN)の能力はいまだに一致に苦慮している。
人間の視覚の発達軌道からインスピレーションを得て,CNNの一般化と堅牢性を改善するために,段階的にぼやけたカリキュラムを提案する。
人間の幼児は視力の悪さで生まれ、細部を知覚する能力は徐々に洗練されていく。
この過程を省略して、初期の時代において高度にぼやけた画像に基づいてCNNを訓練し、訓練が進むにつれて徐々にぼやけを減らし始める。
このアプローチにより、ネットワークは高周波アーティファクトよりもグローバルな構造を優先し、分散シフトやノイズの多い入力に対する堅牢性を向上させることができる。
初期訓練エポックにおけるぼかしは、刺激障害を伴い、モデル性能を不可逆的に損なうという以前の主張に従えば、早期のぼかしは、ドメイン内精度に最小限の影響を伴って一般化を促進することが明らかになる。
実験の結果,CIFAR-10-Cでは最大8.30%,ImageNet-100-Cでは4.43%,ぼやけのない標準トレーニングでは平均劣化誤差(mCE)は最大8.30%削減できることがわかった。
トレーニング中に無作為にぼやけた画像を適用する静的なぼやけた拡張とは異なり、我々の手法は構造化された進行に従っており、様々なデータセットで一貫した利得が得られる。
さらに,本手法は,CutMixやMixUpといった他の拡張手法を補完し,攻撃手法に対する自然的・対角的堅牢性を向上する。
コードはhttps://github.com/rajankita/Visual_Acuity_Curriculumで公開されている。
関連論文リスト
- INDIGO+: A Unified INN-Guided Probabilistic Diffusion Algorithm for Blind and Non-Blind Image Restoration [22.19661915697775]
非盲点画像復元のための新しい INN 誘導確率拡散アルゴリズムを提案する。
INDIGOとBlindINDIGOは、非可逆ニューラルネットワーク(INN)の完全な再構成特性と、事前訓練された拡散モデルの強力な生成能力の利点を組み合わせている。
論文 参考訳(メタデータ) (2025-01-23T18:51:52Z) - MENTOR: Human Perception-Guided Pretraining for Increased Generalization [4.737519767218666]
畳み込みニューラルネットワーク(CNN)のトレーニングに人間の知覚を活用することで、オープンセット認識タスクにおけるそのようなモデルの一般化能力が向上した。
本稿では,オープンセットの異常検出を行うCNNの2つの訓練ラウンドを通じて,この問題に対処するMENTORを紹介する。
MENTORは3つの異なるCNNバックボーンにまたがる一般化性能を,様々な異常検出タスクで向上させることを示す。
論文 参考訳(メタデータ) (2023-10-30T13:50:44Z) - Training on Foveated Images Improves Robustness to Adversarial Attacks [26.472800216546233]
ディープニューラルネットワーク(DNN)は敵の攻撃に弱いことが示されている。
RBlurは、画像のぼやけて彩度を下げることで、周辺視力の損失をシミュレートする画像変換である。
RBlurによって変換された画像に基づいてトレーニングされたDNNは、敵対的攻撃や、他の非敵的、汚職に対してかなり堅牢であり、摂動データに対して最大25%高い精度を達成する。
論文 参考訳(メタデータ) (2023-08-01T21:40:30Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Neural Maximum A Posteriori Estimation on Unpaired Data for Motion
Deblurring [87.97330195531029]
本稿では、ニューラルネットワークをトレーニングし、失明したデータから視覚情報や鋭いコンテンツを復元するためのニューラルネットワークの最大Aポストエリオリ(NeurMAP)推定フレームワークを提案する。
提案されたNeurMAPは、既存のデブロアリングニューラルネットワークに対するアプローチであり、未使用データセット上のイメージデブロアリングネットワークのトレーニングを可能にする最初のフレームワークである。
論文 参考訳(メタデータ) (2022-04-26T08:09:47Z) - Guided Interpolation for Adversarial Training [73.91493448651306]
トレーニングが進むにつれて、トレーニングデータは徐々に攻撃しやすくなり、堅牢性の向上が損なわれる。
本稿では,前時代のメタ情報を用いて,データの逆変換をガイドするguided framework(gif)を提案する。
バニラミキサアップと比較すると、GIFは攻撃可能なデータの比率を高くすることができ、堅牢性向上に有効である。
論文 参考訳(メタデータ) (2021-02-15T03:55:08Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z) - Towards Achieving Adversarial Robustness by Enforcing Feature
Consistency Across Bit Planes [51.31334977346847]
我々は、高ビット平面の情報に基づいて粗い印象を形成するためにネットワークを訓練し、低ビット平面を用いて予測を洗練させる。
異なる量子化画像間で学習した表現に一貫性を付与することにより、ネットワークの対角的ロバスト性が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-04-01T09:31:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。