論文の概要: Training the Untrainable: Introducing Inductive Bias via Representational Alignment
- arxiv url: http://arxiv.org/abs/2410.20035v1
- Date: Sat, 26 Oct 2024 01:04:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:25.150500
- Title: Training the Untrainable: Introducing Inductive Bias via Representational Alignment
- Title(参考訳): 訓練不能のトレーニング:表現アライメントによる誘導バイアスの導入
- Authors: Vighnesh Subramaniam, David Mayo, Colin Conwell, Tomaso Poggio, Boris Katz, Brian Cheung, Andrei Barbu,
- Abstract要約: 伝統的にタスクに適さないと考えられるアーキテクチャは、別のアーキテクチャからの帰納的バイアスを使ってトレーニングできることを示す。
我々は,この手法が視覚タスクにおける完全連結ネットワークの即時オーバーフィッティングを克服し,通常のCNNをResNetsと競合させ,プレーンバニラRNNとトランスフォーマーのギャップの大部分を埋めると共に,トランスフォーマーがより簡単に実行できるタスクを学習するのに役立つことを実証した。
- 参考スコア(独自算出の注目度): 17.390245448311347
- License:
- Abstract: We demonstrate that architectures which traditionally are considered to be ill-suited for a task can be trained using inductive biases from another architecture. Networks are considered untrainable when they overfit, underfit, or converge to poor results even when tuning their hyperparameters. For example, plain fully connected networks overfit on object recognition while deep convolutional networks without residual connections underfit. The traditional answer is to change the architecture to impose some inductive bias, although what that bias is remains unknown. We introduce guidance, where a guide network guides a target network using a neural distance function. The target is optimized to perform well and to match its internal representations, layer-by-layer, to those of the guide; the guide is unchanged. If the guide is trained, this transfers over part of the architectural prior and knowledge of the guide to the target. If the guide is untrained, this transfers over only part of the architectural prior of the guide. In this manner, we can investigate what kinds of priors different architectures place on untrainable networks such as fully connected networks. We demonstrate that this method overcomes the immediate overfitting of fully connected networks on vision tasks, makes plain CNNs competitive to ResNets, closes much of the gap between plain vanilla RNNs and Transformers, and can even help Transformers learn tasks which RNNs can perform more easily. We also discover evidence that better initializations of fully connected networks likely exist to avoid overfitting. Our method provides a mathematical tool to investigate priors and architectures, and in the long term, may demystify the dark art of architecture creation, even perhaps turning architectures into a continuous optimizable parameter of the network.
- Abstract(参考訳): 我々は、伝統的にタスクに適さないと考えられるアーキテクチャを、別のアーキテクチャからの帰納バイアスを使ってトレーニングできることを実証した。
ネットワークは、過度に適合したり、不適当であったり、過度なパラメータをチューニングしても結果に収まる場合、トレーニング不可能であると見なされる。
例えば、通常の完全接続ネットワークはオブジェクト認識に過度に適合し、深い畳み込みネットワークは残余接続が不適である。
従来の答えは、アーキテクチャを変更して帰納的バイアスを課すことだが、そのバイアスが何であるかは分かっていない。
本稿では,ガイドネットワークが神経距離関数を用いて対象ネットワークを案内するガイダンスを紹介する。
ターゲットは、よく機能し、内部表現であるレイヤ・バイ・レイヤをガイドのものと一致するように最適化されている。
ガイドがトレーニングされている場合、これはアーキテクチャ上の事前と目標へのガイドの知識の一部を移行する。
ガイドがトレーニングされていない場合、ガイドのアーキテクチャ上の部分のみを転送する。
このようにして、完全に接続されたネットワークなど、トレーニング不可能なネットワーク上で、どのような事前アーキテクチャが存在するかを調べることができる。
我々は,この手法が視覚タスクにおける完全連結ネットワークの即時オーバーフィッティングを克服し,通常のCNNをResNetsと競合させ,プレーンバニラRNNとトランスフォーマーのギャップの大部分を埋めると共に,トランスフォーマーがより簡単に実行できるタスクを学習するのに役立つことを実証した。
また、完全接続ネットワークのより良い初期化は、過度な適合を避けるために存在する可能性が高いという証拠も発見します。
本手法は,アーキテクチャをネットワークの連続的最適化可能なパラメータに変換することで,アーキテクチャ生成の暗黒の技法を長期にわたって解明する数学的ツールを提供する。
関連論文リスト
- Stitching for Neuroevolution: Recombining Deep Neural Networks without Breaking Them [0.0]
神経進化への伝統的なアプローチは、しばしばゼロから始まる。
アーキテクチャと特徴表現が典型的に異なるため、トレーニングされたネットワークの再結合は簡単ではない。
我々は、クロスオーバーポイントで新しいレイヤを導入することで、ネットワークをマージするステアリングを採用しています。
論文 参考訳(メタデータ) (2024-03-21T08:30:44Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in
Image Restoration [68.18203605110719]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-08-01T20:31:58Z) - Evolving Architectures with Gradient Misalignment toward Low Adversarial
Transferability [4.415977307120616]
本稿では,神経進化を利用してネットワークアーキテクチャを進化させるアーキテクチャ探索フレームワークを提案する。
実験の結果,提案手法は4つの標準ネットワークからの転送可能性を低減するアーキテクチャの発見に成功していることがわかった。
さらに、勾配のずれをトレーニングした進化的ネットワークは、勾配のずれをトレーニングした標準ネットワークと比較して、転送可能性を大幅に低下させる。
論文 参考訳(メタデータ) (2021-09-13T12:41:53Z) - Sifting out the features by pruning: Are convolutional networks the
winning lottery ticket of fully connected ones? [16.5745082442791]
このような「当選宝くじ」に印字を刻む帰納バイアスについて検討する。
残余ノード接続は入力空間において局所的であり、畳み込みネットワーク(CNN)に類似したパターンで構成されていることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:25:54Z) - Firefly Neural Architecture Descent: a General Approach for Growing
Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。
ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。
特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文 参考訳(メタデータ) (2021-02-17T04:47:18Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。