論文の概要: Parameter-Efficient Architectural Modifications for Translation-Invariant CNNs
- arxiv url: http://arxiv.org/abs/2604.27870v1
- Date: Thu, 30 Apr 2026 13:52:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.117691
- Title: Parameter-Efficient Architectural Modifications for Translation-Invariant CNNs
- Title(参考訳): 翻訳不変CNNのためのパラメータ効率の良いアーキテクチャ修正
- Authors: Nuria Alabau-Bosque, Jorge Vila-Tomas, Paula Dauden-Oliver, Valero Laparra, Jesus Malo,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、翻訳不変であると広く考えられているが、標準的なアーキテクチャは驚くべき脆弱性を示している。
我々は,グローバル平均プール層を様々なネットワーク深度に戦略的に挿入し,軽量な「オンラインアーキテクチャ」戦略を提案する。
この戦略は、トレーニング可能なパラメータ(5.2Mから82Kまで)の98%の大幅な削減と、ネットワークサイズ全体の90%の削減を実現している。
- 参考スコア(独自算出の注目度): 2.111646739533638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNNs) are widely assumed to be translation-invariant, yet standard architectures exhibit a startling fragility: even a single-pixel shift can drastically degrade performance due to their reliance on spatially dependent fully connected layers. In this work, we resolve this vulnerability by proposing a lightweight 'Online Architecture' strategy. By strategically inserting Global Average Pooling (GAP) layers at various network depths, we effectively decouple feature recognition from spatial location. Using VGG-16 as a primary case study, we demonstrate that this architectural modification achieves a massive 98% reduction in trainable parameters (from 5.2M to just 82K) and a 90% reduction in total network size (138M to 14M). Despite this drastic pruning, our variants maintain competitive Top-1 accuracy on ImageNet (66.4%) while doubling translational robustness, reducing average relative loss from 0.09 to 0.05. Furthermore, our analysis identifies a fundamental limit to invariance: while GAP resolves macroscopic sensitivity, discrete pooling operations introduce a residual periodic aliasing that prevents perfect pixel-level stability. Finally, we extend these findings to Perceptual Image Quality Assessment (IQA) by integrating our invariant backbones into the LPIPS framework. The resulting metric significantly outperforms the retrained baseline in generalization across the KADID-10k dataset (Spearman 0.89 vs. 0.75) and achieves a near-perfect alignment with human psychophysical response curves on the RAID dataset (Spearman 0.95). These results confirm that enforcing architectural invariance is a far more efficient and biologically plausible path to robustness than traditional data augmentation. Data and code are publicly available. The data and code are publicly available to facilitate validation and further research.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、翻訳不変であると広く考えられているが、標準的なアーキテクチャは驚くべき脆弱性を示す。
この作業では、軽量な"オンラインアーキテクチャ"戦略を提案することで、この脆弱性を解決する。
ネットワーク深度にGAP(Global Average Pooling)層を戦略的に挿入することにより,特徴認識を空間的位置から効果的に分離する。
主な事例としてVGG-16を用いて、トレーニング可能なパラメータ(5.2Mから82Kまで)の98%の大幅な削減と、ネットワーク全体のサイズ(138Mから14M)の90%の削減を実現している。
この急激なプルーニングにもかかわらず、私たちの変種はImageNet(66.4%)で競合するTop-1の精度を維持しながら、翻訳の堅牢性を2倍にし、平均相対損失を0.09から0.05に減らした。
さらに,GAPはマクロな感度を分解するのに対し,離散プール操作は,完全画素レベルの安定性を損なう残留周期的エイリアスを導入する。
最後に、LPIPSフレームワークに不変のバックボーンを統合することにより、これらの知見を知覚画像品質評価(IQA)に拡張する。
その結果、KADID-10kデータセット全体(Spearman 0.89 vs. 0.75)の一般化において、トレーニングされたベースラインを著しく上回り、RAIDデータセット(Spearman 0.95)上の人間の心理物理学的応答曲線とほぼ完璧なアライメントを達成する。
これらの結果は、従来のデータ拡張よりもはるかに効率的で生物学的に妥当なロバスト性への道であることを確認した。
データとコードは公開されています。
データとコードは、検証とさらなる研究を容易にするために公開されています。
関連論文リスト
- Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - On the Relationship Between Representation Geometry and Generalization in Deep Neural Networks [0.0]
教師なし幾何学的計量である有効次元が精度を強く予測することを示す。
ノイズによる幾何劣化は精度損失(r=-0.94, $p 10(9)$)を引き起こすが、PCAによる幾何改善はアーキテクチャ全体にわたる精度(95%のばらつきで-0.03pp)を維持する。
これらの結果は、有効次元が、ラベルなしで完全に計算されたニューラルネットワークの性能に関するドメインに依存しない予測および因果情報を提供することを証明している。
論文 参考訳(メタデータ) (2026-01-28T04:33:41Z) - Filter Pruning For CNN With Enhanced Linear Representation Redundancy [3.853146967741941]
本稿では,CCM-loss という同一層内の異なる特徴写像の相関行列から計算したデータ駆動損失関数の項を示す。
CCM-lossは、L*-ノルム正規化以外に、別の普遍的超越数学的ツールを提供する。
新しい戦略では、主にネットワーク内の情報フローの整合性と整合性に注目します。
論文 参考訳(メタデータ) (2023-10-10T06:27:30Z) - Efficient Joint Optimization of Layer-Adaptive Weight Pruning in Deep
Neural Networks [48.089501687522954]
ディープニューラルネットワーク(DNN)のための新しい層適応型重み決定手法を提案する。
我々のアプローチは、レイヤ適応型プルーニングスキームを設計するためのすべてのレイヤの集団的影響を考慮に入れている。
我々の実験は、ImageNetとCIFAR-10データセット上の既存の手法よりも、我々のアプローチの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T03:22:47Z) - One-Shot Learning for Periocular Recognition: Exploring the Effect of
Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。
我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。
SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文 参考訳(メタデータ) (2023-07-11T09:10:16Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。