論文の概要: Orthogonalized SGD and Nested Architectures for Anytime Neural Networks
- arxiv url: http://arxiv.org/abs/2008.06635v1
- Date: Sat, 15 Aug 2020 03:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 20:46:07.338681
- Title: Orthogonalized SGD and Nested Architectures for Anytime Neural Networks
- Title(参考訳): 任意のニューラルネットワークのための直交型SGDとネステッドアーキテクチャ
- Authors: Chengcheng Wan, Henry Hoffmann, Shan Lu, Michael Maire
- Abstract要約: 直交化SGDはマルチタスクネットワークをトレーニングする際のタスク固有の勾配を動的に再バランスさせる。
実験により、オルソゴン化SGDによるトレーニングは、任意の時間ネットワークの精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 30.598394152055338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel variant of SGD customized for training network
architectures that support anytime behavior: such networks produce a series of
increasingly accurate outputs over time. Efficient architectural designs for
these networks focus on re-using internal state; subnetworks must produce
representations relevant for both immediate prediction as well as refinement by
subsequent network stages. We consider traditional branched networks as well as
a new class of recursively nested networks. Our new optimizer, Orthogonalized
SGD, dynamically re-balances task-specific gradients when training a multitask
network. In the context of anytime architectures, this optimizer projects
gradients from later outputs onto a parameter subspace that does not interfere
with those from earlier outputs. Experiments demonstrate that training with
Orthogonalized SGD significantly improves generalization accuracy of anytime
networks.
- Abstract(参考訳): 本稿では,ネットワークアーキテクチャのトレーニング用にカスタマイズされた新しいSGDを提案する。
これらのネットワークの効率的なアーキテクチャ設計は、内部状態の再利用に重点を置いている。
従来の分岐ネットワークだけでなく,再帰的ネストネットワークの新たなクラスも検討する。
我々の新しいオプティマイザOrthogonalized SGDはマルチタスクネットワークをトレーニングする際のタスク固有の勾配を動的に再バランスする。
anytime architecturesの文脈では、このオプティマイザは、後から出力された勾配を、以前の出力と干渉しないパラメータ部分空間に投影する。
実験により、直交sgdを用いたトレーニングが、任意の時間ネットワークの一般化精度を大幅に向上できることが示されている。
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in
Image Restoration [68.18203605110719]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Network Embedding via Deep Prediction Model [25.727377978617465]
本稿では,深層予測モデルを用いて構造化ネットワーク上での転送挙動を捕捉するネットワーク埋め込みフレームワークを提案する。
ネットワーク構造埋め込み層は、Long Short-Term Memory NetworkやRecurrent Neural Networkなど、従来の深部予測モデルに付加される。
ソーシャルネットワーク, 引用ネットワーク, バイオメディカルネットワーク, 協調ネットワーク, 言語ネットワークなど, さまざまなデータセットについて実験を行った。
論文 参考訳(メタデータ) (2021-04-27T16:56:00Z) - TSAM: Temporal Link Prediction in Directed Networks based on
Self-Attention Mechanism [2.5144068869465994]
本稿では,グラフニューラルネットワーク(GCN)と自己認識機構,すなわちTSAMに基づくディープラーニングモデルを提案する。
我々は,TSAMの有効性を検証するために,4つの現実的ネットワーク上で比較実験を行った。
論文 参考訳(メタデータ) (2020-08-23T11:56:40Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - ForecastNet: A Time-Variant Deep Feed-Forward Neural Network
Architecture for Multi-Step-Ahead Time-Series Forecasting [6.043572971237165]
本稿では,フィードフォワードアーキテクチャを用いて時間変動モデルを提供するForecastNetを提案する。
ForecastNetは、いくつかのデータセットで統計的およびディープラーニングベンチマークモデルを上回るパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-02-11T01:03:33Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。