論文の概要: Extraction Propagation
- arxiv url: http://arxiv.org/abs/2402.15883v4
- Date: Mon, 09 Dec 2024 16:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:48:27.928423
- Title: Extraction Propagation
- Title(参考訳): 抽出伝播
- Authors: Stephen Pasteris, Chris Hicks, Vasilios Mavroudis,
- Abstract要約: 本稿では、多数の小さなニューラルネットワークで構成された代替アーキテクチャについて述べる。
アーキテクチャを通じて勾配を伝播する代わりに、前方パスを介して計算されたベクトル値のメッセージを伝搬する。
- 参考スコア(独自算出の注目度): 4.368185344922342
- License:
- Abstract: Running backpropagation end to end on large neural networks is fraught with difficulties like vanishing gradients and degradation. In this paper we present an alternative architecture composed of many small neural networks that interact with one another. Instead of propagating gradients back through the architecture we propagate vector-valued messages computed via forward passes, which are then used to update the parameters. Currently the performance is conjectured as we are yet to implement the architecture. However, we do back it up with some theory. A previous version of this paper was entitled "Fusion encoder networks" and detailed a slightly different architecture.
- Abstract(参考訳): 大規模なニューラルネットワーク上でのバックプロパゲーションのエンドツーエンドの実行は、勾配の消失や劣化といった困難に悩まされている。
本稿では,多数の小さなニューラルネットワークが相互に相互作用する代替アーキテクチャを提案する。
アーキテクチャを通じて勾配を伝播する代わりに、前方パスを介して計算されたベクトル値のメッセージを伝搬し、パラメータを更新する。
現在、アーキテクチャを実装していないため、パフォーマンスは推測されている。
しかし、何らかの理論でそれを裏付ける。
この論文の以前のバージョンは「フュージョンエンコーダネットワーク」と題され、若干異なるアーキテクチャを詳述した。
関連論文リスト
- How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Make Deep Networks Shallow Again [6.647569337929869]
余剰接続の概念によってブレークスルーが達成されている。
残差接続層のスタックはテイラー展開に類似した項の拡張として表すことができる。
言い換えれば、シーケンシャルなディープアーキテクチャは、平行な浅層アーキテクチャに置き換えられる。
論文 参考訳(メタデータ) (2023-09-15T14:18:21Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Automatic Gradient Descent: Deep Learning without Hyperparameters [35.350274248478804]
ディープニューラルネットワークのアーキテクチャは、レイヤ数、各レイヤの幅、一般的なネットワークトポロジの観点から明確に定義される。
グラデーション・アイデアは、神経アーキテクチャの非勾配構造を考慮するために、ブレグマンの発散を変換することである。
論文 参考訳(メタデータ) (2023-04-11T12:45:52Z) - Projective Manifold Gradient Layer for Deep Rotation Regression [49.85464297105456]
ディープニューラルネットワークを用いたSO(3)多様体上の回帰回転は重要な問題であるが未解決である。
ネットワーク重みに直接逆伝搬する多様体対応勾配を提案する。
論文 参考訳(メタデータ) (2021-10-22T08:34:15Z) - On the Implicit Biases of Architecture & Gradient Descent [46.34988166338264]
本稿では、トレーニングデータに適合する典型的なネットワークは、既にかなり一般化されているが、勾配降下は、大きなマージンを持つネットワークを選択することにより、さらに一般化を向上させることができることを見出した。
新しい技術ツールは、アーキテクチャの暗黙のバイアスと勾配降下の両方を含む一般化の微妙なポートレートを示唆している。
論文 参考訳(メタデータ) (2021-10-08T17:36:37Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Have convolutions already made recurrence obsolete for unconstrained
handwritten text recognition ? [3.0969191504482247]
制約のない手書きテキスト認識は、ディープニューラルネットワークにとって重要な課題です。
リカレントネットワークとLong Short-Term Memory Networkはこの分野で最先端の性能を達成した。
RIMESデータセットを用いたオフライン手書き認識タスクにおける異なるアーキテクチャに関する実験的研究を提案する。
論文 参考訳(メタデータ) (2020-12-09T10:15:24Z) - Spatio-Temporal Inception Graph Convolutional Networks for
Skeleton-Based Action Recognition [126.51241919472356]
我々はスケルトンに基づく行動認識のためのシンプルで高度にモジュール化されたグラフ畳み込みネットワークアーキテクチャを設計する。
ネットワークは,空間的および時間的経路から多粒度情報を集約するビルディングブロックを繰り返すことで構築される。
論文 参考訳(メタデータ) (2020-11-26T14:43:04Z) - Using Graph Neural Networks to Reconstruct Ancient Documents [2.4366811507669124]
グラフニューラルネットワークをベースとした一対のパッチ情報を用いてラベルをエッジに割り当てる手法を提案する。
このネットワークは、ソースとターゲットパッチの関係を、アップ、ダウン、左、右、ノーンの1つに分類する。
このモデルでは,エッジレベルでの正確な分類だけでなく,パッチの集合から部分的あるいは完全な再構成グラフを生成することが可能である。
論文 参考訳(メタデータ) (2020-11-13T18:36:36Z) - Permute, Quantize, and Fine-tune: Efficient Compression of Neural
Networks [70.0243910593064]
ベクトル量子化の成功の鍵は、どのパラメータ群を一緒に圧縮するかを決定することである。
本稿では,隣り合う2つの層の重みを同じ関数を表現しながら不変にすることができることを観察する。
次に、レート歪み理論への接続を確立し、圧縮し易いネットワークとなる置換を探索する。
論文 参考訳(メタデータ) (2020-10-29T15:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。