論文の概要: Unlocking Noise-Resistant Vision: Key Architectural Secrets for Robust Models
- arxiv url: http://arxiv.org/abs/2509.20939v1
- Date: Thu, 25 Sep 2025 09:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.817818
- Title: Unlocking Noise-Resistant Vision: Key Architectural Secrets for Robust Models
- Title(参考訳): アンロック型耐雑音性ビジョン:ロバストモデルのための鍵となるアーキテクチャシークレット
- Authors: Bum Jun Kim, Makoto Kawano, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: ある種の視覚アーキテクチャが本質的に加法ガウス雑音に対して堅牢である理由を考察する。
具体的には,1,174個の事前学習型視覚モデルの評価を行う。
ガウス雑音に対するロバスト性を改善するための4つの一貫した設計パターンを同定する。
- 参考スコア(独自算出の注目度): 41.429437803093485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the robustness of vision models is often measured, their dependence on specific architectural design choices is rarely dissected. We investigate why certain vision architectures are inherently more robust to additive Gaussian noise and convert these empirical insights into simple, actionable design rules. Specifically, we performed extensive evaluations on 1,174 pretrained vision models, empirically identifying four consistent design patterns for improved robustness against Gaussian noise: larger stem kernels, smaller input resolutions, average pooling, and supervised vision transformers (ViTs) rather than CLIP ViTs, which yield up to 506 rank improvements and 21.6\%p accuracy gains. We then develop a theoretical analysis that explains these findings, converting observed correlations into causal mechanisms. First, we prove that low-pass stem kernels attenuate noise with a gain that decreases quadratically with kernel size and that anti-aliased downsampling reduces noise energy roughly in proportion to the square of the downsampling factor. Second, we demonstrate that average pooling is unbiased and suppresses noise in proportion to the pooling window area, whereas max pooling incurs a positive bias that grows slowly with window size and yields a relatively higher mean-squared error and greater worst-case sensitivity. Third, we reveal and explain the vulnerability of CLIP ViTs via a pixel-space Lipschitz bound: The smaller normalization standard deviations used in CLIP preprocessing amplify worst-case sensitivity by up to 1.91 times relative to the Inception-style preprocessing common in supervised ViTs. Our results collectively disentangle robustness into interpretable modules, provide a theory that explains the observed trends, and build practical, plug-and-play guidelines for designing vision models more robust against Gaussian noise.
- Abstract(参考訳): 視覚モデルのロバスト性はしばしば測定されるが、特定の設計上の選択への依存は滅多に分離されない。
特定の視覚アーキテクチャが加法的なガウス雑音に対して本質的に堅牢である理由を考察し、これらの経験的洞察をシンプルで実行可能な設計規則に変換する。
具体的には,1,174個の事前学習された視覚モデルに対して,より大きい幹細胞,少ない入力解像度,平均プーリング,教師付き視覚変換器(ViT)の4つの一貫した設計パターンを実験的に同定し,最大506個のランク改善と21.6\%pの精度向上を実現した。
次に、これらの知見を理論的に説明し、観察された相関関係を因果機構に変換する。
まず,低域のステムカーネルは,カーネルサイズに比例して2次的に減少するゲインを伴ってノイズを減衰させ,ダウンサンプリング係数の2乗に比例してアンチエイリアスダウンサンプリングがノイズエネルギーを減少させることを示した。
第2に、平均プーリングが非バイアスであり、プールウィンドウ面積に比例してノイズを抑制するのに対し、最大プーリングは、ウィンドウサイズとともにゆっくりと成長する正のバイアスを生じ、平均二乗誤差が比較的高く、最悪の場合の感度が高いことを実証する。
第三に,CLIPの前処理で使用される正規化標準偏差が小さくなれば,インセプションスタイルのViTに対して,最大1.91倍の最悪ケース感度が向上する。
本結果は,解析可能なモジュールにロバスト性をまとめて分散させ,観測されたトレンドを説明する理論を提供し,ガウス雑音に対してよりロバストなビジョンモデルを設計するための実用的なプラグアンドプレイガイドラインを構築した。
関連論文リスト
- RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS [79.15416002879239]
3D Gaussian Splattingは、ノベルビュー合成と3Dモデリングにおけるリアルタイム、フォトリアリスティックレンダリングにおいて大きな注目を集めている。
既存の手法は、過渡的なオブジェクトに影響されたシーンを正確にモデル化するのに苦労し、描画された画像のアーティファクトに繋がる。
2つの重要な設計に基づく堅牢なソリューションであるRobustSplatを提案する。
論文 参考訳(メタデータ) (2025-06-03T11:13:48Z) - A TRPCA-Inspired Deep Unfolding Network for Hyperspectral Image Denoising via Thresholded t-SVD and Top-K Sparse Transformer [20.17660504535571]
本稿では,低ランクとスパースという2つの密に統合されたモジュール間のステージワイドな交互化を実現する新しいディープ展開ネットワーク(DU-TRPCA)を提案する。
合成および実世界のHSIの実験により、DU-TRPCAは高密度混合雑音下で最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2025-06-03T02:01:39Z) - Noise Augmented Fine Tuning for Mitigating Hallucinations in Large Language Models [1.0579965347526206]
大規模言語モデル(LLM)は、しばしば不正確な、または誤解を招くコンテンツ・ハロシンを生成する。
noise-Augmented Fine-Tuning (NoiseFiT) は適応ノイズ注入を利用してモデルロバスト性を高める新しいフレームワークである。
NoiseFiTは、動的にスケールしたガウス雑音を用いて、高SNR(より堅牢)または低SNR(潜在的に過正規化)と同定された層を選択的に摂動する。
論文 参考訳(メタデータ) (2025-04-04T09:27:19Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - Bias in Pruned Vision Models: In-Depth Analysis and Countermeasures [93.17009514112702]
ニューラルネットワークのパラメータのかなりの部分集合をゼロに設定するプルーニングは、モデル圧縮の最も一般的な方法の1つである。
この現象の既存の証拠にもかかわらず、ニューラルネットワークのプルーニングと誘導バイアスの関係はよく理解されていない。
論文 参考訳(メタデータ) (2023-04-25T07:42:06Z) - Frequency-Aware Self-Supervised Monocular Depth Estimation [41.97188738587212]
自己教師付き単眼深度推定モデルを改善するための2つの多目的手法を提案する。
本手法の高一般化性は,測光損失関数の基本的およびユビキタスな問題を解くことによって達成される。
我々は、解釈可能な解析で深度推定器を改善するために、初めてぼやけた画像を提案する。
論文 参考訳(メタデータ) (2022-10-11T14:30:26Z) - How Does Frequency Bias Affect the Robustness of Neural Image
Classifiers against Common Corruption and Adversarial Perturbations? [27.865987936475797]
近年の研究では、データ拡張は低周波領域の特徴を過度に分析する結果をもたらすことが示されている。
モデルのジャコビアンに対して、低周波成分の比が大きいようにジャコビアン周波数正規化を提案する。
我々の手法は、深層学習モデルの周波数バイアスとロバスト性の間のより直接的な関係を解明する。
論文 参考訳(メタデータ) (2022-05-09T20:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。