Fugu-MT 論文翻訳(概要): Understand the Effectiveness of Shortcuts through the Lens of DCA

論文の概要: Understand the Effectiveness of Shortcuts through the Lens of DCA

arxiv url: http://arxiv.org/abs/2412.09853v1
Date: Fri, 13 Dec 2024 04:46:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.838447
Title: Understand the Effectiveness of Shortcuts through the Lens of DCA
Title（参考訳）: DCAレンズによるショートカットの有効性の検討
Authors: Youran Sun, Yihua Liu, Yi-Shuai Niu,
Abstract要約: 差分凸アルゴリズム(DCA)は、凸ショートカットとして表現できる非関数を最小化するためのよく知られた非最適化アルゴリズムである。従来の解釈に合わないResNetという新しいアーキテクチャを提案しました。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Difference-of-Convex Algorithm (DCA) is a well-known nonconvex optimization algorithm for minimizing a nonconvex function that can be expressed as the difference of two convex ones. Many famous existing optimization algorithms, such as SGD and proximal point methods, can be viewed as special DCAs with specific DC decompositions, making it a powerful framework for optimization. On the other hand, shortcuts are a key architectural feature in modern deep neural networks, facilitating both training and optimization. We showed that the shortcut neural network gradient can be obtained by applying DCA to vanilla neural networks, networks without shortcut connections. Therefore, from the perspective of DCA, we can better understand the effectiveness of networks with shortcuts. Moreover, we proposed a new architecture called NegNet that does not fit the previous interpretation but performs on par with ResNet and can be included in the DCA framework.
Abstract（参考訳）: 差分凸アルゴリズム (DCA) は、2つの凸関数の差分として表現できる非凸関数を最小化するためのよく知られた非凸最適化アルゴリズムである。 SGDや近点法などの多くの既存の最適化アルゴリズムは、特定のDC分解を伴う特別なDCAと見なすことができ、最適化のための強力なフレームワークとなっている。一方、ショートカットは現代のディープニューラルネットワークにおける重要なアーキテクチャ機能であり、トレーニングと最適化の両方を容易にする。短絡接続のないネットワークであるバニラニューラルネットワークにDCAを適用することにより、短絡ニューラルネットワーク勾配を求めることができることを示した。したがって、DCAの観点からは、ショートカットによるネットワークの有効性をよりよく理解することができる。さらに,従来の解釈に適合せず,ResNetと同等に動作し,DCAフレームワークに含めることができるNegNetという新しいアーキテクチャを提案する。

関連論文リスト

Preserving Deep Representations In One-Shot Pruning: A Hessian-Free Second-Order Optimization Framework [12.331056472174275]
SNOWSは、再トレーニングをせずに視覚ネットワーク推論のコストを削減することを目的とした、一発の訓練後プルーニングフレームワークである。我々のフレームワークの重要な革新は、完全にヘッセン行列を計算したり保存したりすることなく、ヘッセン自由最適化を用いてニュートン降下ステップを正確に計算することである。
論文参考訳（メタデータ） (2024-11-27T14:25:00Z)
Unfolded proximal neural networks for robust image Gaussian denoising [7.018591019975253]
本稿では,二元FBと二元Chambolle-Pockアルゴリズムの両方に基づいて,ガウス分母タスクのためのPNNを統一的に構築するフレームワークを提案する。また、これらのアルゴリズムの高速化により、関連するNN層におけるスキップ接続が可能であることを示す。
論文参考訳（メタデータ） (2023-08-06T15:32:16Z)
Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。 SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2022-10-23T18:37:22Z)
Graph-based Algorithm Unfolding for Energy-aware Power Allocation in Wireless Networks [27.600081147252155]
我々は,無線通信網におけるエネルギー効率を最大化する新しいグラフ要約フレームワークを開発した。無線ネットワークデータのモデルに望ましい特性である置換訓練について述べる。結果は、異なるネットワークトポロジにまたがる一般化可能性を示している。
論文参考訳（メタデータ） (2022-01-27T20:23:24Z)
Neural network relief: a pruning algorithm based on neural activity [47.57448823030151]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。 MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文参考訳（メタデータ） (2021-09-22T15:33:49Z)
Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。 CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文参考訳（メタデータ） (2021-06-20T04:28:20Z)
Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文参考訳（メタデータ） (2021-06-08T15:54:44Z)
A Dynamical View on Optimization Algorithms of Overparameterized Neural Networks [23.038631072178735]
我々は、一般的に使用される最適化アルゴリズムの幅広いクラスについて考察する。その結果、ニューラルネットワークの収束挙動を利用することができる。このアプローチは他の最適化アルゴリズムやネットワーク理論にも拡張できると考えています。
論文参考訳（メタデータ） (2020-10-25T17:10:22Z)
A Deep-Unfolded Reference-Based RPCA Network For Video Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文参考訳（メタデータ） (2020-10-02T11:40:09Z)
A Differential Game Theoretic Neural Optimizer for Training Residual Networks [29.82841891919951]
本稿では、残差接続と畳み込み層の両方を受け入れる一般化微分動的プログラミング(DDP)ニューラルアーキテクチャを提案する。得られた最適制御表現は、トレーニング残余ネットワークを、状態拡張システム上での協調的軌道最適化と解釈できるゲーム論的視点を許容する。
論文参考訳（メタデータ） (2020-07-17T10:19:17Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Dynamic Hierarchical Mimicking Towards Consistent Optimization Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。 DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文参考訳（メタデータ） (2020-03-24T09:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。