論文の概要: Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives
- arxiv url: http://arxiv.org/abs/2003.10739v2
- Date: Fri, 20 Aug 2021 08:36:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:18:52.517474
- Title: Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives
- Title(参考訳): 一貫性最適化対象に向けた動的階層的ミミキング
- Authors: Duo Li and Qifeng Chen
- Abstract要約: 一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
- 参考スコア(独自算出の注目度): 73.15276998621582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the depth of modern Convolutional Neural Networks (CNNs) surpasses that
of the pioneering networks with a significant margin, the traditional way of
appending supervision only over the final classifier and progressively
propagating gradient flow upstream remains the training mainstay. Seminal
Deeply-Supervised Networks (DSN) were proposed to alleviate the difficulty of
optimization arising from gradient flow through a long chain. However, it is
still vulnerable to issues including interference to the hierarchical
representation generation process and inconsistent optimization objectives, as
illustrated theoretically and empirically in this paper. Complementary to
previous training strategies, we propose Dynamic Hierarchical Mimicking, a
generic feature learning mechanism, to advance CNN training with enhanced
generalization ability. Partially inspired by DSN, we fork delicately designed
side branches from the intermediate layers of a given neural network. Each
branch can emerge from certain locations of the main branch dynamically, which
not only retains representation rooted in the backbone network but also
generates more diverse representations along its own pathway. We go one step
further to promote multi-level interactions among different branches through an
optimization formula with probabilistic prediction matching losses, thus
guaranteeing a more robust optimization process and better representation
ability. Experiments on both category and instance recognition tasks
demonstrate the substantial improvements of our proposed method over its
corresponding counterparts using diverse state-of-the-art CNN architectures.
Code and models are publicly available at https://github.com/d-li14/DHM
- Abstract(参考訳): 現代の畳み込みニューラルネットワーク(CNN)の深さは、先駆的なネットワークの深さをかなり上回っているが、従来の監督方法は、最終分類器を越え、上流の勾配流を徐々に伝播させるだけである。
長い鎖を通る勾配流に起因する最適化の難しさを軽減するため, セミナルディープ・スーパーバイザード・ネットワーク (DSN) が提案された。
しかし,本稿では,階層的表現生成プロセスへの干渉や,一貫性のない最適化目標などの問題に対して,まだ脆弱である。
従来の学習戦略を補完し,汎用的特徴学習機構である動的階層模倣法を提案し,一般化能力を高めたcnnトレーニングを前進させる。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
各ブランチは、バックボーンネットワークに根付いた表現を保持するだけでなく、独自の経路に沿ってより多様な表現を生成する。
さらに,各分岐間の多レベル相互作用を最適化公式により促進し,確率的予測損失を予測し,より堅牢な最適化プロセスと表現能力を保証する。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験は、様々な最先端CNNアーキテクチャを用いて、対応する手法よりも大幅に改善されたことを示す。
コードとモデルはhttps://github.com/d-li14/dhmで公開されている。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Dynamic Perceiver for Efficient Visual Recognition [87.08210214417309]
特徴抽出手順と早期分類タスクを分離する動的知覚器(Dyn-Perceiver)を提案する。
特徴ブランチは画像の特徴を抽出し、分類ブランチは分類タスクに割り当てられた遅延コードを処理する。
早期出口は分類枝に限られており、低レベルの特徴において線形分離性は不要である。
論文 参考訳(メタデータ) (2023-06-20T03:00:22Z) - Optimisation & Generalisation in Networks of Neurons [8.078758339149822]
この論文の目的は、人工ニューラルネットワークにおける学習の最適化と一般化理論の基礎を開発することである。
アーキテクチャに依存した一階最適化アルゴリズムを導出するための新しい理論的枠組みを提案する。
ネットワークと個々のネットワークのアンサンブルの間には,新たな対応関係が提案されている。
論文 参考訳(メタデータ) (2022-10-18T18:58:40Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Dynamic Game Theoretic Neural Optimizer [10.612273480358692]
DNN自体を特徴とするダイナミックゲームにおいて、各層をプレイヤーとして捉え、新しいダイナミックゲーム視点を提案する。
我々の研究は、OCTとゲーム理論の両方の長所をマージし、ロバストな最適制御とバンディットに基づく最適化から新しいアルゴリズムの機会を創り出す。
論文 参考訳(メタデータ) (2021-05-08T21:56:14Z) - Faster Convergence in Deep-Predictive-Coding Networks to Learn Deeper
Representations [12.716429755564821]
DPCN(Deep-Predictive-Coding Network)は、フィードフォワードとフィードバック接続に依存する階層的な生成モデルである。
DPCNの重要な要素は、動的モデルのスパース状態を明らかにする前向きの推論手順である。
我々は,加速近位勾配に基づく実験的および理論的収束性の向上した最適化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-18T02:30:13Z) - A Differential Game Theoretic Neural Optimizer for Training Residual
Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。
得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文 参考訳(メタデータ) (2020-07-17T10:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。