論文の概要: LAUREL: Learned Augmented Residual Layer
- arxiv url: http://arxiv.org/abs/2411.07501v1
- Date: Tue, 12 Nov 2024 02:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:21.267002
- Title: LAUREL: Learned Augmented Residual Layer
- Title(参考訳): LAUREL: Augmented Residual Layerを学習
- Authors: Gaurav Menghani, Ravi Kumar, Sanjiv Kumar,
- Abstract要約: emphLearned Augmented Residual Layer (LAuReL) は標準残差接続の新たな一般化である。
実験の結果,ラウレルの使用は視覚モデルと言語モデルの両方のパフォーマンス向上に役立つことがわかった。
- 参考スコア(独自算出の注目度): 43.75268131453693
- License:
- Abstract: One of the core pillars of efficient deep learning methods is architectural improvements such as the residual/skip connection, which has led to significantly better model convergence and quality. Since then the residual connection has become ubiquitous in not just convolutional neural networks but also transformer-based architectures, the backbone of LLMs. In this paper we introduce \emph{Learned Augmented Residual Layer} (LAuReL) -- a novel generalization of the canonical residual connection -- with the goal to be an in-situ replacement of the latter while outperforming on both model quality and footprint metrics. Our experiments show that using \laurel can help boost performance for both vision and language models. For example, on the ResNet-50, ImageNet 1K task, it achieves $60\%$ of the gains from adding an extra layer, while only adding $0.003\%$ more parameters, and matches it while adding $2.6\times$ fewer parameters.
- Abstract(参考訳): 効率的なディープラーニング手法のコア柱の1つは、残差/スキップ接続のようなアーキテクチャ改善であり、モデル収束と品質が大幅に向上した。
それ以来、残余接続は、畳み込みニューラルネットワークだけでなく、LSMのバックボーンであるトランスフォーマーベースのアーキテクチャにおいてもユビキタスになっている。
本稿では,標準残差接続の新たな一般化である \emph{Learned Augmented Residual Layer} (LAuReL) を紹介する。
実験の結果, \laurelは視覚モデルと言語モデルの両方のパフォーマンス向上に役立つことがわかった。
例えば、ResNet-50、ImageNet 1Kタスクでは、余分なレイヤの追加による利得の60\%$を達成し、0.003\%$以上のパラメータを追加し、さらに2.6\times$少ないパラメータを追加してマッチする。
関連論文リスト
- Self-Balanced R-CNN for Instance Segmentation [2.059150828428537]
インスタンスセグメンテーションタスクにおける現在の最先端の2段階モデルは、いくつかのタイプの不均衡に悩まされている。
本稿では、第2段階のトレーニングにおいて、利益の正の入力領域(RoIs)のユニオン(IoU)分布不均衡について述べる。
我々のセルフバランスR-CNNモデルは、バウンディングボックスとマスクリファインメントの全く新しいループメカニズムを提供する。
論文 参考訳(メタデータ) (2024-04-25T14:22:44Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Kronecker-Factored Approximate Curvature for Modern Neural Network
Architectures [85.76673783330334]
線形重み付け層の2つの異なる設定がクロネッカー型近似曲率(K-FAC)の2つの風味を動機付けている
重み付けをそれぞれ設定したディープ・リニア・ネットワークに対して正確であることを示す。
グラフニューラルネットワークと視覚変換器の両方をトレーニングするために、これらの2つのK-FACの違いをほとんど観測しない。
論文 参考訳(メタデータ) (2023-11-01T16:37:00Z) - Systematic Architectural Design of Scale Transformed Attention Condenser
DNNs via Multi-Scale Class Representational Response Similarity Analysis [93.0013343535411]
マルチスケールクラス表現応答類似性分析(ClassRepSim)と呼ばれる新しいタイプの分析法を提案する。
ResNetスタイルのアーキテクチャにSTACモジュールを追加すると、最大1.6%の精度が向上することを示す。
ClassRepSim分析の結果は、STACモジュールの効果的なパラメータ化を選択するために利用することができ、競争性能が向上する。
論文 参考訳(メタデータ) (2023-06-16T18:29:26Z) - Improved Convergence Guarantees for Shallow Neural Networks [91.3755431537592]
勾配降下法により訓練された深度2ニューラルネットの収束度を世界最小とする。
我々のモデルには、二次損失関数による回帰、完全連結フィードフォワードアーキテクチャ、RelUアクティベーション、ガウスデータインスタンス、逆ラベルといった特徴がある。
彼らは、少なくとも我々のモデルでは、収束現象がNTK体制をはるかに超越していることを強く示唆している」。
論文 参考訳(メタデータ) (2022-12-05T14:47:52Z) - Magic ELF: Image Deraining Meets Association Learning and Transformer [63.761812092934576]
本稿では,CNN と Transformer を統合化して,画像デライニングにおける学習のメリットを活用することを目的とする。
降雨除去と背景復旧を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。
提案手法(ELF)は,最先端手法(MPRNet)を平均0.25dB向上させる。
論文 参考訳(メタデータ) (2022-07-21T12:50:54Z) - BERMo: What can BERT learn from ELMo? [6.417011237981518]
言語モデル(ELMo)の埋め込みにおいて提案する線形結合スキームを用いて,異なるネットワーク深さのスケールした内部表現を組み合わせる。
提案手法の利点は,(1)下流タスクの勾配流の改善,(2)代表力の向上である。
論文 参考訳(メタデータ) (2021-10-18T17:35:41Z) - Recurrent Parameter Generators [42.159272098922685]
本稿では,多くの異なる畳み込み層に対して同じパラメータを反復的に使用してディープネットワークを構築するための汎用的手法を提案する。
我々は,従来のCNNモデルと同じような性能を実現するために,一層ニューラルネットワークを構築する方法を示す。
論文 参考訳(メタデータ) (2021-07-15T04:23:59Z) - Dep-$L_0$: Improving $L_0$-based Network Sparsification via Dependency
Modeling [6.081082481356211]
L_0$正規化によるディープニューラルネットワークのトレーニングは、ネットワークプルーニングやスパシフィケーションの顕著なアプローチのひとつだ。
本稿では,ImageNet上のResNet50のような大規模学習タスクに対して一貫性のない処理を行うことを示す。
本稿では,多層パーセプトロンとして効果的にモデル化できるバイナリゲートの依存性モデリングを提案する。
論文 参考訳(メタデータ) (2021-06-30T19:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。