論文の概要: Training the Untrainable: Introducing Inductive Bias via Representational Alignment
- arxiv url: http://arxiv.org/abs/2410.20035v2
- Date: Thu, 23 Oct 2025 20:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:14.757333
- Title: Training the Untrainable: Introducing Inductive Bias via Representational Alignment
- Title(参考訳): 訓練不能のトレーニング:表現アライメントによる誘導バイアスの導入
- Authors: Vighnesh Subramaniam, David Mayo, Colin Conwell, Tomaso Poggio, Boris Katz, Brian Cheung, Andrei Barbu,
- Abstract要約: 伝統的にタスクに適さないと考えられるアーキテクチャは、別のアーキテクチャからの帰納的バイアスを使ってトレーニングできることを示す。
我々は,イメージネット上でFCNが過度に適合することを防止し,バニラRNN-Transformerギャップを狭めるとともに,通常のCNNをResNetの精度に向けて強化し,RNNが好むタスクに対してトランスフォーマーを補助することを示す。
- 参考スコア(独自算出の注目度): 17.222963037741327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We demonstrate that architectures which traditionally are considered to be ill-suited for a task can be trained using inductive biases from another architecture. We call a network untrainable when it overfits, underfits, or converges to poor results even when tuning their hyperparameters. For example, fully connected networks overfit on object recognition while deep convolutional networks without residual connections underfit. The traditional answer is to change the architecture to impose some inductive bias, although the nature of that bias is unknown. We introduce guidance, where a guide network steers a target network using a neural distance function. The target minimizes its task loss plus a layerwise representational similarity against the frozen guide. If the guide is trained, this transfers over the architectural prior and knowledge of the guide to the target. If the guide is untrained, this transfers over only part of the architectural prior of the guide. We show that guidance prevents FCN overfitting on ImageNet, narrows the vanilla RNN-Transformer gap, boosts plain CNNs toward ResNet accuracy, and aids Transformers on RNN-favored tasks. We further identify that guidance-driven initialization alone can mitigate FCN overfitting. Our method provides a mathematical tool to investigate priors and architectures, and in the long term, could automate architecture design.
- Abstract(参考訳): 我々は、伝統的にタスクに適さないと考えられるアーキテクチャを、別のアーキテクチャからの帰納バイアスを使ってトレーニングできることを実証した。
ハイパーパラメータをチューニングしても、ネットワークが過度に適合したり、不適当であったり、結果に収束している場合には、ネットワークをトレーニング不可能(untrainable)と呼ぶ。
例えば、完全に接続されたネットワークはオブジェクト認識に過度に適合し、深い畳み込みネットワークは残余の接続が不適である。
従来の答えはアーキテクチャを変更して帰納的バイアスを課すことだが、そのバイアスの性質は分かっていない。
本稿では,ガイドネットワークがニューラル距離関数を用いて対象ネットワークを操る誘導手法を提案する。
ターゲットは、そのタスク損失を最小化し、凍結したガイドに対して階層的に表現的に類似する。
ガイドがトレーニングされている場合、これはアーキテクチャ上の優先事項と目標へのガイドの知識を渡します。
ガイドがトレーニングされていない場合、ガイドのアーキテクチャ上の部分のみを転送する。
我々は,イメージネット上でFCNが過度に適合することを防止し,バニラRNN-Transformerギャップを狭めるとともに,通常のCNNをResNetの精度に向けて強化し,RNNが好むタスクに対してトランスフォーマーを補助することを示す。
さらに、誘導駆動初期化だけでFCNの過度な適合を緩和できることを示す。
提案手法は,先行とアーキテクチャを解析するための数学的ツールを提供し,長期的にはアーキテクチャ設計の自動化を可能にする。
関連論文リスト
- NN-Former: Rethinking Graph Structure in Neural Architecture Representation [67.3378579108611]
グラフニューラルネットワーク(GNN)とトランスフォーマーは、ニューラルネットワークを表現する上で有望なパフォーマンスを示している。
これまでの研究で見過ごされている間、兄弟ノードは中心的であることを示す。
我々のアプローチは、精度と遅延予測の両方において、常に有望な性能を達成する。
論文 参考訳(メタデータ) (2025-07-01T15:46:18Z) - Find A Winning Sign: Sign Is All We Need to Win the Lottery [52.63674911541416]
既存のIP手法によって訓練されたスパースネットワークは,パラメータ記号と正規化層パラメータが保存されている場合,アトラクションの基盤を保持することができることを示す。
本手法により訓練されたスパースネットワークと正規化層パラメータとの線形経路における高い誤差障壁を防止し, 正規化層パラメータへの依存を緩和する。
論文 参考訳(メタデータ) (2025-04-07T09:30:38Z) - Stitching for Neuroevolution: Recombining Deep Neural Networks without Breaking Them [0.0]
神経進化への伝統的なアプローチは、しばしばゼロから始まる。
アーキテクチャと特徴表現が典型的に異なるため、トレーニングされたネットワークの再結合は簡単ではない。
我々は、クロスオーバーポイントで新しいレイヤを導入することで、ネットワークをマージするステアリングを採用しています。
論文 参考訳(メタデータ) (2024-03-21T08:30:44Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in Image Restoration [62.41329042683779]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - Improving the Trainability of Deep Neural Networks through Layerwise
Batch-Entropy Regularization [1.3999481573773072]
ニューラルネットワークの各層を通しての情報の流れを定量化するバッチエントロピーを導入,評価する。
損失関数にバッチエントロピー正規化項を追加するだけで、500層からなる「バニラ」完全連結ネットワークと畳み込みニューラルネットワークをトレーニングできることが示される。
論文 参考訳(メタデータ) (2022-08-01T20:31:58Z) - Evolving Architectures with Gradient Misalignment toward Low Adversarial
Transferability [4.415977307120616]
本稿では,神経進化を利用してネットワークアーキテクチャを進化させるアーキテクチャ探索フレームワークを提案する。
実験の結果,提案手法は4つの標準ネットワークからの転送可能性を低減するアーキテクチャの発見に成功していることがわかった。
さらに、勾配のずれをトレーニングした進化的ネットワークは、勾配のずれをトレーニングした標準ネットワークと比較して、転送可能性を大幅に低下させる。
論文 参考訳(メタデータ) (2021-09-13T12:41:53Z) - Sifting out the features by pruning: Are convolutional networks the
winning lottery ticket of fully connected ones? [16.5745082442791]
このような「当選宝くじ」に印字を刻む帰納バイアスについて検討する。
残余ノード接続は入力空間において局所的であり、畳み込みネットワーク(CNN)に類似したパターンで構成されていることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:25:54Z) - Firefly Neural Architecture Descent: a General Approach for Growing
Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。
ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。
特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文 参考訳(メタデータ) (2021-02-17T04:47:18Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。