論文の概要: A Guide to Robust Generalization: The Impact of Architecture, Pre-training, and Optimization Strategy
- arxiv url: http://arxiv.org/abs/2508.14079v1
- Date: Tue, 12 Aug 2025 19:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.163727
- Title: A Guide to Robust Generalization: The Impact of Architecture, Pre-training, and Optimization Strategy
- Title(参考訳): ロバストな一般化のためのガイド: アーキテクチャ、事前学習、最適化戦略の影響
- Authors: Maxime Heuillet, Rishika Bhagwatkar, Jonas Ngnawé, Yann Pequignot, Alexandre Larouche, Christian Gagné, Irina Rish, Ola Ahmad, Audrey Durand,
- Abstract要約: 6つのデータセット,40の事前訓練アーキテクチャ,2つの特別な損失,3つの適応プロトコルにまたがる実験的検討を行った。
大規模なデータセット上で教師付きで事前訓練された畳み込みニューラルネットワークは、しばしば最高のパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 50.33847176405776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models operating in the image domain are vulnerable to small input perturbations. For years, robustness to such perturbations was pursued by training models from scratch (i.e., with random initializations) using specialized loss objectives. Recently, robust fine-tuning has emerged as a more efficient alternative: instead of training from scratch, pretrained models are adapted to maximize predictive performance and robustness. To conduct robust fine-tuning, practitioners design an optimization strategy that includes the model update protocol (e.g., full or partial) and the specialized loss objective. Additional design choices include the architecture type and size, and the pretrained representation. These design choices affect robust generalization, which is the model's ability to maintain performance when exposed to new and unseen perturbations at test time. Understanding how these design choices influence generalization remains an open question with significant practical implications. In response, we present an empirical study spanning 6 datasets, 40 pretrained architectures, 2 specialized losses, and 3 adaptation protocols, yielding 1,440 training configurations and 7,200 robustness measurements across five perturbation types. To our knowledge, this is the most diverse and comprehensive benchmark of robust fine-tuning to date. While attention-based architectures and robust pretrained representations are increasingly popular, we find that convolutional neural networks pretrained in a supervised manner on large datasets often perform best. Our analysis both confirms and challenges prior design assumptions, highlighting promising research directions and offering practical guidance.
- Abstract(参考訳): 画像領域で動作するディープラーニングモデルは、小さな入力摂動に弱い。
長年にわたり、そのような摂動に対する頑健性は、特殊な損失目標を用いてゼロから(ランダムな初期化を含む)訓練モデルによって追求された。
近年、スクラッチからトレーニングする代わりに、事前訓練されたモデルは予測性能と堅牢性を最大化するために適応される。
堅牢な微調整を行うため、実践者はモデル更新プロトコル(例えば、完全または部分的な)と特殊な損失目標を含む最適化戦略を設計する。
アーキテクチャのタイプとサイズ、事前訓練された表現などが追加されている。
これらの設計選択は堅牢な一般化に影響を及ぼすが、これはモデルがテスト時に新しい、目に見えない摂動にさらされたときのパフォーマンスを維持する能力である。
これらの設計選択が一般化にどのように影響するかを理解することは、重要な実践的な意味を持つオープンな問題である。
その結果,6つのデータセット,40の事前訓練アーキテクチャ,2つの特別な損失,および3つの適応プロトコルを対象とし,1,440のトレーニング構成と5種類の摂動型7,200のロバストネス測定を行った。
私たちの知る限り、これはこれまででもっとも多様で包括的な、堅牢な微調整のベンチマークです。
注意に基づくアーキテクチャと頑健な事前訓練された表現はますます人気があるが、大規模なデータセット上で教師付き方法で事前訓練された畳み込みニューラルネットワークは、よく機能する。
我々の分析は、設計の前提を確定し、挑戦し、有望な研究の方向性を強調し、実践的なガイダンスを提供する。
関連論文リスト
- Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - SOPHON: Non-Fine-Tunable Learning to Restrain Task Transferability For Pre-trained Models [19.41370590658815]
強力な事前訓練されたモデルは、非倫理的または違法なタスクに誤用される可能性がある。
先駆的な学習パラダイムであるNon-fine-tunable Learningを導入し、事前学習されたモデルが不適切なタスクに微調整されるのを防ぐ。
本稿では、予め定義された制限ドメインで微調整された場合に抵抗する、与えられた事前学習モデルを強化する保護フレームワークSOPHONを提案する。
論文 参考訳(メタデータ) (2024-04-19T08:07:26Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - An Empirical Study of Pre-trained Model Selection for Out-of-Distribution Generalization and Calibration [10.163552196632853]
微調整事前訓練されたモデルは、アウト・オブ・ディストリビューション(OOD)一般化タスクの一般的な戦略となっている。
本研究では,事前学習モデルサイズ,事前学習データセットサイズ,トレーニング戦略が一般化と信頼性の校正にどのように影響するかを検討した。
論文 参考訳(メタデータ) (2023-07-17T01:27:10Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Robust Graph Representation Learning via Predictive Coding [46.22695915912123]
予測符号化は、当初脳の情報処理をモデル化するために開発されたメッセージパッシングフレームワークである。
本研究では,予測符号化のメッセージパス規則に依存するモデルを構築する。
提案したモデルは,帰納的タスクと帰納的タスクの両方において,標準的なモデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2022-12-09T03:58:22Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。