論文の概要: Rethinking the shape convention of an MLP
- arxiv url: http://arxiv.org/abs/2510.01796v1
- Date: Thu, 02 Oct 2025 08:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.059718
- Title: Rethinking the shape convention of an MLP
- Title(参考訳): MLPの形状規則の再考
- Authors: Meng-Hsi Chen, Yu-Ang Lee, Feng-Ting Liao, Da-shan Shiu,
- Abstract要約: マルチ層パーセプトロン(MLP)は、通常、拡張された隠れ空間で処理が行われる間、スキップ接続が入出力次元で動作する狭い幅の狭い設計に従う。
本研究では,狭い隙間を流れる残差ボトルネックに対して,スキップ接続を拡大次元で動作させる広狭幅(Hourglass)ブロックを提案する。
本研究は,トランスフォーマーや他の残余ネットワークに拡張される可能性のある,現代のアーキテクチャにおけるスキップ接続配置の再検討を示唆する。
- 参考スコア(独自算出の注目度): 9.117940123896034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-layer perceptrons (MLPs) conventionally follow a narrow-wide-narrow design where skip connections operate at the input/output dimensions while processing occurs in expanded hidden spaces. We challenge this convention by proposing wide-narrow-wide (Hourglass) MLP blocks where skip connections operate at expanded dimensions while residual computation flows through narrow bottlenecks. This inversion leverages higher-dimensional spaces for incremental refinement while maintaining computational efficiency through parameter-matched designs. Implementing Hourglass MLPs requires an initial projection to lift input signals to expanded dimensions. We propose that this projection can remain fixed at random initialization throughout training, enabling efficient training and inference implementations. We evaluate both architectures on generative tasks over popular image datasets, characterizing performance-parameter Pareto frontiers through systematic architectural search. Results show that Hourglass architectures consistently achieve superior Pareto frontiers compared to conventional designs. As parameter budgets increase, optimal Hourglass configurations favor deeper networks with wider skip connections and narrower bottlenecks-a scaling pattern distinct from conventional MLPs. Our findings suggest reconsidering skip connection placement in modern architectures, with potential applications extending to Transformers and other residual networks.
- Abstract(参考訳): マルチ層パーセプトロン(MLP)は、通常、拡張された隠れ空間で処理が行われる間、スキップ接続が入出力次元で動作する狭い幅の狭い設計に従う。
我々は,狭いボトルネックを通過する残差計算をしながら,幅の狭い(グラス)MLPブロックをスキップ接続が拡張次元で動作するようにすることで,この慣行に挑戦する。
この反転は、パラメータマッチング設計による計算効率を維持しながら、高次元の空間をインクリメンタルな洗練のために活用する。
Hourglass MLPの実装には、入力信号を拡張次元に引き上げるために初期投影が必要である。
本稿では,このプロジェクションをトレーニング中,ランダム初期化時に固定し,効率的なトレーニングと推論の実装を可能にすることを提案する。
本研究では,一般的な画像データセットよりも生成タスクの両アーキテクチャを評価し,アーキテクチャの体系的検索により性能パラメータのパレートフロンティアを特徴付ける。
以上の結果から,Hourglassアーキテクチャは従来の設計よりも優れたParetoフロンティアを一貫して達成していることがわかった。
パラメータ予算が増加するにつれて、最適なフールグラス構成は、従来のMLPとは異なるスケーリングパターンである、より広いスキップ接続とより狭いボトルネックを持つより深いネットワークを好む。
本研究は,トランスフォーマーや他の残余ネットワークに拡張される可能性のある,現代のアーキテクチャにおけるスキップ接続配置の再検討を示唆する。
関連論文リスト
- JointSplat: Probabilistic Joint Flow-Depth Optimization for Sparse-View Gaussian Splatting [10.690965024885358]
スパースの観点から3Dシーンを再構築することは、幅広いアプリケーションにおいて長年にわたる課題である。
近年のフィードフォワード3Dガウスのスパースビュー再構成法は, リアルタイムな新規ビュー合成のための効率的な解法である。
光学的流れと深さの相補性を利用する統一的なフレームワークであるJointSplatを提案する。
論文 参考訳(メタデータ) (2025-06-04T12:04:40Z) - STLight: a Fully Convolutional Approach for Efficient Predictive Learning by Spatio-Temporal joint Processing [6.872340834265972]
チャネルワイドおよび深度ワイドの畳み込みを学習可能な層としてのみ依存する,S時間学習のための新しい方法STLightを提案する。
STLightは、空間次元と時間次元を並べ替えることで、従来の畳み込みアプローチの限界を克服する。
本アーキテクチャは,データセットや設定のSTLベンチマーク上での最先端性能を実現するとともに,パラメータや計算FLOPの計算効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-15T13:53:19Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parallelized Spatiotemporal Binding [47.67393266882402]
逐次入力のための最初の時間並列化可能なスロット学習アーキテクチャであるPSB(Parallelizable Spatiotemporal Binder)を導入する。
従来のRNNベースのアプローチとは異なり、PSBは全ての時間ステップを並列に、スロットとして知られるオブジェクト中心の表現を生成する。
現状と比較して、我々のアーキテクチャはより長いシーケンスで安定したトレーニングを行い、トレーニング速度が60%向上する並列化を実現し、教師なしの2Dおよび3Dオブジェクト中心のシーン分解と理解に匹敵する性能を得る。
論文 参考訳(メタデータ) (2024-02-26T23:16:34Z) - Fast Monocular Scene Reconstruction with Global-Sparse Local-Dense Grids [84.90863397388776]
本稿では,スパルス・ボクセル・ブロック・グリッドにおける署名付き距離関数(SDF)を直接使用して,距離のない高速かつ正確なシーン再構成を実現することを提案する。
我々の世界規模で疎密で局所的なデータ構造は、表面の空間的空間性を利用して、キャッシュフレンドリーなクエリを可能にし、マルチモーダルデータへの直接拡張を可能にします。
実験により、我々のアプローチはトレーニングでは10倍、レンダリングでは100倍高速であり、最先端のニューラル暗黙法に匹敵する精度を実現していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T16:50:19Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Partition of unity networks: deep hp-approximation [0.0]
本稿では,これらの要素を直接アーキテクチャに組み込む統一ネットワーク(POUnets)の分割を提案する。
POUnets は滑らかな関数に対して hp-収束をもたらし、多くの不連続性を持つピースワイズ関数を一貫して上回る。
論文 参考訳(メタデータ) (2021-01-27T08:26:11Z) - Local Propagation in Constraint-based Neural Network [77.37829055999238]
ニューラルネットワークアーキテクチャの制約に基づく表現について検討する。
本稿では,いわゆるアーキテクチャ制約を満たすのに適した簡単な最適化手法について検討する。
論文 参考訳(メタデータ) (2020-02-18T16:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。