論文の概要: Sparse Linear Networks with a Fixed Butterfly Structure: Theory and
Practice
- arxiv url: http://arxiv.org/abs/2007.08864v2
- Date: Sun, 4 Jul 2021 11:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:13:17.316659
- Title: Sparse Linear Networks with a Fixed Butterfly Structure: Theory and
Practice
- Title(参考訳): 固定蝶構造を有するスパース線形ネットワークの理論と実践
- Authors: Nir Ailon, Omer Leibovich, Vineet Nair
- Abstract要約: 本稿では,バタフライネットワークに基づくアーキテクチャにより,ニューラルネットワーク内の密度線形層を置き換えることを提案する。
NLPデータと視覚データの両方の教師付き予測を含む実験のコレクションでは、これは単に既存のよく知られたアーキテクチャにマッチする結果をもたらすだけでなく、時には優れた結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 4.3400407844814985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A butterfly network consists of logarithmically many layers, each with a
linear number of non-zero weights (pre-specified). The fast
Johnson-Lindenstrauss transform (FJLT) can be represented as a butterfly
network followed by a projection onto a random subset of the coordinates.
Moreover, a random matrix based on FJLT with high probability approximates the
action of any matrix on a vector. Motivated by these facts, we propose to
replace a dense linear layer in any neural network by an architecture based on
the butterfly network. The proposed architecture significantly improves upon
the quadratic number of weights required in a standard dense layer to nearly
linear with little compromise in expressibility of the resulting operator. In a
collection of wide variety of experiments, including supervised prediction on
both the NLP and vision data, we show that this not only produces results that
match and at times outperform existing well-known architectures, but it also
offers faster training and prediction in deployment. To understand the
optimization problems posed by neural networks with a butterfly network, we
also study the optimization landscape of the encoder-decoder network, where the
encoder is replaced by a butterfly network followed by a dense linear layer in
smaller dimension. Theoretical result presented in the paper explains why the
training speed and outcome are not compromised by our proposed approach.
- Abstract(参考訳): バタフライネットワークは対数的に多数の層で構成され、それぞれがゼロでない重みの線形数を持つ。
高速ジョンソン・リンデンシュトラウス変換(FJLT)はバタフライネットワークとして表現され、その後座標のランダムな部分集合に投影される。
さらに、高い確率を持つFJLTに基づくランダム行列は、ベクトル上の任意の行列の作用を近似する。
これらの事実に動機づけられ、バタフライネットワークに基づくアーキテクチャにより、任意のニューラルネットワークの高密度線形層を置き換えることを提案する。
提案したアーキテクチャは、標準密度層で要求される重みの2次数を大幅に改善し、結果として生じる演算子の表現可能性にほとんど妥協しない。
nlpと視覚データの教師付き予測を含む、さまざまな実験のコレクションでは、これは既存のよく知られたアーキテクチャに匹敵する結果をもたらすだけでなく、デプロイメントにおけるより高速なトレーニングと予測も提供する。
また,バタフライネットワークを用いたニューラルネットワークの最適化問題を理解するため,エンコーダをバタフライネットワークに置き換えたエンコーダ・デコーダネットワークの最適化景観を,より小さな次元で高密度線形層に置き換えた。
論文で提示された理論的結果は,提案手法によってトレーニング速度と結果が損なわれない理由を説明する。
関連論文リスト
- Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - ReLU Neural Networks with Linear Layers are Biased Towards Single- and Multi-Index Models [9.96121040675476]
この原稿は、2層以上の深さのニューラルネットワークによって学習された関数の性質が予測にどのように影響するかを考察している。
我々のフレームワークは、すべて同じキャパシティを持つが表現コストが異なる、様々な深さのネットワーク群を考慮に入れている。
論文 参考訳(メタデータ) (2023-05-24T22:10:12Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - ReduNet: A White-box Deep Network from the Principle of Maximizing Rate
Reduction [32.489371527159236]
この研究は、データ圧縮と識別表現の原理から、現代の深層(畳み込み)ネットワークを解釈することを目的とした、妥当な理論フレームワークの提供を試みる。
高次元マルチクラスデータに対して、最適な線形判別表現は、データセット全体と全てのサブセットの平均との符号化速度差を最大化することを示す。
速度減少目標を最適化するための基本的反復的勾配上昇スキームは,現代のディープネットワークの共通特性を共有する多層ディープネットワークであるReduNetに自然に導かれることを示す。
論文 参考訳(メタデータ) (2021-05-21T16:29:57Z) - Wide-band butterfly network: stable and efficient inversion via
multi-frequency neural networks [1.2891210250935143]
広帯域散乱データから逆散乱マップを近似するために,広帯域蝶ネットワーク(WideBNet)と呼ばれるエンドツーエンドのディープラーニングアーキテクチャを導入する。
このアーキテクチャでは、バタフライの分解のような計算調和解析や、クーリー・テューキーFFTアルゴリズムのような伝統的なマルチスケール手法のツールが組み込まれている。
論文 参考訳(メタデータ) (2020-11-24T21:48:43Z) - Deep Networks from the Principle of Rate Reduction [32.87280757001462]
この研究は、レート還元と(シフト)不変分類の原理から、現代のディープ(畳み込み)ネットワークを解釈しようとする。
学習した特徴量の減少率を最適化するための基本的反復的漸進勾配法が,多層深層ネットワーク,すなわち1層1回を自然に導くことを示す。
この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。
論文 参考訳(メタデータ) (2020-10-27T06:01:43Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。