論文の概要: Orthogonalized SGD and Nested Architectures for Anytime Neural Networks
- arxiv url: http://arxiv.org/abs/2008.06635v1
- Date: Sat, 15 Aug 2020 03:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 20:46:07.338681
- Title: Orthogonalized SGD and Nested Architectures for Anytime Neural Networks
- Title(参考訳): 任意のニューラルネットワークのための直交型SGDとネステッドアーキテクチャ
- Authors: Chengcheng Wan, Henry Hoffmann, Shan Lu, Michael Maire
- Abstract要約: 直交化SGDはマルチタスクネットワークをトレーニングする際のタスク固有の勾配を動的に再バランスさせる。
実験により、オルソゴン化SGDによるトレーニングは、任意の時間ネットワークの精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 30.598394152055338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel variant of SGD customized for training network
architectures that support anytime behavior: such networks produce a series of
increasingly accurate outputs over time. Efficient architectural designs for
these networks focus on re-using internal state; subnetworks must produce
representations relevant for both immediate prediction as well as refinement by
subsequent network stages. We consider traditional branched networks as well as
a new class of recursively nested networks. Our new optimizer, Orthogonalized
SGD, dynamically re-balances task-specific gradients when training a multitask
network. In the context of anytime architectures, this optimizer projects
gradients from later outputs onto a parameter subspace that does not interfere
with those from earlier outputs. Experiments demonstrate that training with
Orthogonalized SGD significantly improves generalization accuracy of anytime
networks.
- Abstract(参考訳): 本稿では,ネットワークアーキテクチャのトレーニング用にカスタマイズされた新しいSGDを提案する。
これらのネットワークの効率的なアーキテクチャ設計は、内部状態の再利用に重点を置いている。
従来の分岐ネットワークだけでなく,再帰的ネストネットワークの新たなクラスも検討する。
我々の新しいオプティマイザOrthogonalized SGDはマルチタスクネットワークをトレーニングする際のタスク固有の勾配を動的に再バランスする。
anytime architecturesの文脈では、このオプティマイザは、後から出力された勾配を、以前の出力と干渉しないパラメータ部分空間に投影する。
実験により、直交sgdを用いたトレーニングが、任意の時間ネットワークの一般化精度を大幅に向上できることが示されている。
関連論文リスト
- Generalization emerges from local optimization in a self-organized learning network [0.0]
我々は,グローバルなエラー関数に頼ることなく,局所最適化ルールのみによって駆動される,教師付き学習ネットワーク構築のための新しいパラダイムを設計・分析する。
我々のネットワークは、ルックアップテーブルの形で、ノードに新しい知識を正確かつ瞬時に保存する。
本稿では,学習例数が十分に大きくなると,アルゴリズムによって生成されたネットワークが完全な一般化状態に体系的に到達する,分類タスクの多くの例を示す。
我々は状態変化のダイナミクスについて報告し、それが突然であり、従来の学習ネットワークですでに観察されている現象である1次相転移の特徴を持つことを示す。
論文 参考訳(メタデータ) (2024-10-03T15:32:08Z) - Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
ディープオペレータネットワーク(DeepNet)は、様々な科学的・工学的応用における複雑な力学のリアルタイム予測に成功している。
本稿では,DeepONetのトレーニングを取り入れたランダムサンプリング手法を提案する。
実験の結果,訓練中にトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性と堅牢性が向上し,複雑な物理系のモデリングにおけるフレームワークの性能向上に期待できる道筋が得られた。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in Image Restoration [62.41329042683779]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - ForecastNet: A Time-Variant Deep Feed-Forward Neural Network
Architecture for Multi-Step-Ahead Time-Series Forecasting [6.043572971237165]
本稿では,フィードフォワードアーキテクチャを用いて時間変動モデルを提供するForecastNetを提案する。
ForecastNetは、いくつかのデータセットで統計的およびディープラーニングベンチマークモデルを上回るパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-02-11T01:03:33Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。