論文の概要: A Too-Good-to-be-True Prior to Reduce Shortcut Reliance
- arxiv url: http://arxiv.org/abs/2102.06406v1
- Date: Fri, 12 Feb 2021 09:17:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:18:55.133209
- Title: A Too-Good-to-be-True Prior to Reduce Shortcut Reliance
- Title(参考訳): 短納期化に先駆けて最善を尽くす
- Authors: Nikolay Dagaev, Brett D. Roads, Xiaoliang Luo, Daniel N. Barry,
Kaustubh R. Patil, Bradley C. Love
- Abstract要約: ディープ畳み込みニューラルネットワーク(DCNN)は、しばしば分布外(o.o.d.)への一般化に失敗する。
サンプル
この欠点の原因の1つは、現代建築が「ショートカット」に頼る傾向があることである。
この誘導バイアスは、低容量ネットワークからの予測を用いて高容量ネットワークのトレーニングを通知する2段階のアプローチで実装する。
- 参考スコア(独自算出の注目度): 0.19573380763700707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite their impressive performance in object recognition and other tasks
under standard testing conditions, deep convolutional neural networks (DCNNs)
often fail to generalize to out-of-distribution (o.o.d.) samples. One cause for
this shortcoming is that modern architectures tend to rely on "shortcuts" -
superficial features that correlate with categories without capturing deeper
invariants that hold across contexts. Real-world concepts often possess a
complex structure that can vary superficially across contexts, which can make
the most intuitive and promising solutions in one context not generalize to
others. One potential way to improve o.o.d. generalization is to assume simple
solutions are unlikely to be valid across contexts and downweight them, which
we refer to as the too-good-to-be-true prior. We implement this inductive bias
in a two-stage approach that uses predictions from a low-capacity network (LCN)
to inform the training of a high-capacity network (HCN). Since the shallow
architecture of the LCN can only learn surface relationships, which includes
shortcuts, we downweight training items for the HCN that the LCN can master,
thereby encouraging the HCN to rely on deeper invariant features that should
generalize broadly. Using a modified version of the CIFAR-10 dataset in which
we introduced shortcuts, we found that the two-stage LCN-HCN approach reduced
reliance on shortcuts and facilitated o.o.d. generalization.
- Abstract(参考訳): 標準的テスト条件下でのオブジェクト認識やその他のタスクでの印象的な性能にもかかわらず、ディープ畳み込みニューラルネットワーク(dcnn)はしばしば分散(o.o.d.)への一般化に失敗している。
サンプル
この欠点の1つの原因は、現代のアーキテクチャは、コンテキストをまたがる深い不変量を取り込むことなく、カテゴリと相関する表面的な特徴「短い」に依存する傾向があることである。
現実世界の概念は、多くの場合、文脈によって表面的に異なる複雑な構造を持ち、あるコンテキストにおいて最も直感的で有望なソリューションを他のコンテキストに一般化できないものにすることができる。
o.o.d.を改良する潜在的な方法の1つ
一般化は、単純なソリューションがコンテキスト全体にわたって有効ではないと仮定し、それらをダウンウェイトすると仮定することです。
この誘導バイアスは、低容量ネットワーク(LCN)からの予測を使用して、大容量ネットワーク(HCN)のトレーニングを知らせる2段階のアプローチで実装します。
LCNの浅いアーキテクチャはショートカットを含む表面関係のみを学ぶことができるため、LCNがマスターできるHCNのトレーニングアイテムをダウンウェイトにすることで、HCNは広く一般化されるべきより深い不変機能に頼るように促します。
ショートカットを導入したCIFAR-10データセットの修正版を用いて、2段階のLCN-HCNアプローチによりショートカットへの依存が減少し、o.o.dが促進された。
一般化。
関連論文リスト
- Exact, Tractable Gauss-Newton Optimization in Deep Reversible Architectures Reveal Poor Generalization [52.16435732772263]
多くのアプリケーションにおいて、ディープニューラルネットワークのトレーニングを加速する2階最適化が示されている。
しかし、二階法の一般化特性についてはいまだ議論が続いている。
我々は、Gauss-Newton (GN) の正確な更新が、ディープアーキテクチャのクラスにおいて、牽引可能な形式を取ることを初めて示す。
論文 参考訳(メタデータ) (2024-11-12T17:58:40Z) - Generalization and Estimation Error Bounds for Model-based Neural
Networks [78.88759757988761]
スパースリカバリのためのモデルベースネットワークの一般化能力は、通常のReLUネットワークよりも優れていることを示す。
我々は,高一般化を保証したモデルベースネットワークの構築を可能にする実用的な設計規則を導出する。
論文 参考訳(メタデータ) (2023-04-19T16:39:44Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - On skip connections and normalisation layers in deep optimisation [32.51139594406463]
本稿では、ディープニューラルネットワークの最適化研究のための一般的な理論的枠組みを紹介する。
本フレームワークは多層損失景観の曲率および規則性特性を決定する。
スキップ接続がトレーニングを加速する新しい因果メカニズムを同定する。
論文 参考訳(メタデータ) (2022-10-10T06:22:46Z) - Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in
Neural Networks [66.76034024335833]
バックボーンによって多様・複雑な特徴が学習される理由を考察し、その脆さは、主に最も単純な特徴に依存する線形分類ヘッドによるものである。
本稿では,学習した特徴がログから復元可能であることを保証するために,特徴再構成正則化器(FRR)を提案する。
我々は、最近導入された極端分布シフトを持つ半合成データセットにおいて、OOD精度が最大15%向上することを示した。
論文 参考訳(メタデータ) (2022-10-04T04:01:15Z) - On Feature Learning in Neural Networks with Global Convergence
Guarantees [49.870593940818715]
勾配流(GF)を用いた広帯域ニューラルネットワーク(NN)の最適化について検討する。
入力次元がトレーニングセットのサイズ以下である場合、トレーニング損失はGFの下での線形速度で0に収束することを示す。
また、ニューラル・タンジェント・カーネル(NTK)システムとは異なり、我々の多層モデルは特徴学習を示し、NTKモデルよりも優れた一般化性能が得られることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-22T15:56:43Z) - Self-Ensembling GAN for Cross-Domain Semantic Segmentation [107.27377745720243]
本稿では,セマンティックセグメンテーションのためのクロスドメインデータを利用した自己理解型生成逆数ネットワーク(SE-GAN)を提案する。
SE-GANでは、教師ネットワークと学生ネットワークは、意味分節マップを生成するための自己組織化モデルを構成する。
その単純さにもかかわらず、SE-GANは敵の訓練性能を大幅に向上させ、モデルの安定性を高めることができる。
論文 参考訳(メタデータ) (2021-12-15T09:50:25Z) - Sparsity Aware Normalization for GANs [32.76828505875087]
GAN(Generative adversarial Network)は、トレーニング中の批判的(差別的)ネットワークの正規化または正規化の恩恵を受けることが知られている。
本稿では,一般のスペクトル正規化スキームを分析し,有意な欠点を見つけ,GANトレーニングの安定化のための新たなアプローチであるスパーシャリティ認識正規化(SAN)を導入する。
論文 参考訳(メタデータ) (2021-03-03T15:05:18Z) - Faster Convergence in Deep-Predictive-Coding Networks to Learn Deeper
Representations [12.716429755564821]
DPCN(Deep-Predictive-Coding Network)は、フィードフォワードとフィードバック接続に依存する階層的な生成モデルである。
DPCNの重要な要素は、動的モデルのスパース状態を明らかにする前向きの推論手順である。
我々は,加速近位勾配に基づく実験的および理論的収束性の向上した最適化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-18T02:30:13Z) - Disentangling Trainability and Generalization in Deep Neural Networks [45.15453323967438]
我々は,ニューラルネットワークのトレーニング性と一般化のために,NTK(Neural Tangent Kernel)のスペクトルを分析した。
グローバル平均プールのないCNNはFCNとほぼ同じ挙動を示すが、プールを持つCNNは著しく異なり、しばしば一般化性能が向上している。
論文 参考訳(メタデータ) (2019-12-30T18:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。