論文の概要: Auto-Compressing Networks
- arxiv url: http://arxiv.org/abs/2506.09714v1
- Date: Wed, 11 Jun 2025 13:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.001448
- Title: Auto-Compressing Networks
- Title(参考訳): 自動圧縮ネットワーク
- Authors: Vaggelis Dorovatas, Georgios Paraskevopoulos, Alexandros Potamianos,
- Abstract要約: 本稿では,各層からの付加的な長フィードフォワード接続が従来の短残コネクションに取って代わるアーキテクチャ変種であるAuto-Nets(ACNs)を紹介する。
ACNは、トレーニング中に情報を有機的に圧縮するネットワークの能力である、"auto-compression"(自動圧縮)という独自の特性を示します。
その結果,ACNは残差ネットワークに比べて耐雑音性が向上し,低データ設定性能が向上し,破滅的忘れを軽減できることがわかった。
- 参考スコア(独自算出の注目度): 59.83547898874152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks with short residual connections have demonstrated remarkable success across domains, but increasing depth often introduces computational redundancy without corresponding improvements in representation quality. In this work, we introduce Auto-Compressing Networks (ACNs), an architectural variant where additive long feedforward connections from each layer to the output replace traditional short residual connections. ACNs showcase a unique property we coin as "auto-compression", the ability of a network to organically compress information during training with gradient descent, through architectural design alone. Through auto-compression, information is dynamically "pushed" into early layers during training, enhancing their representational quality and revealing potential redundancy in deeper ones. We theoretically show that this property emerges from layer-wise training patterns present in ACNs, where layers are dynamically utilized during training based on task requirements. We also find that ACNs exhibit enhanced noise robustness compared to residual networks, superior performance in low-data settings, improved transfer learning capabilities, and mitigate catastrophic forgetting suggesting that they learn representations that generalize better despite using fewer parameters. Our results demonstrate up to 18% reduction in catastrophic forgetting and 30-80% architectural compression while maintaining accuracy across vision transformers, MLP-mixers, and BERT architectures. Furthermore, we demonstrate that coupling ACNs with traditional pruning techniques, enables significantly better sparsity-performance trade-offs compared to conventional architectures. These findings establish ACNs as a practical approach to developing efficient neural architectures that automatically adapt their computational footprint to task complexity, while learning robust representations.
- Abstract(参考訳): 短い残差接続を持つディープニューラルネットワークは、ドメイン間で顕著な成功を示しているが、深度の増加は、表現品質の改善を伴わない計算冗長性をもたらすことが多い。
本稿では,各層から出力への付加的な長いフィードフォワード接続が,従来の短残コネクションに取って代わるアーキテクチャのバリエーションであるAuto-Compressing Networks (ACNs)を紹介する。
ACNは、我々が「自動圧縮」と呼ぶユニークな特性を示しており、ネットワークが勾配降下訓練中に、アーキテクチャ設計だけで情報を有機的に圧縮する能力である。
自動圧縮によって、情報はトレーニング中に動的に初期層に"プッシュ"され、表現の質を高め、より深い層に潜在的な冗長性を明らかにする。
本稿では,この特性が,タスク要求に基づくトレーニング中に動的にレイヤを活用できるACNの層ワイドトレーニングパターンから生じることを理論的に示す。
また、ACNは、残差ネットワークと比較してノイズ堅牢性が向上し、低データ設定の性能が向上し、転送学習能力が向上し、パラメータが少ないにもかかわらず、より一般化した表現を学習することを示唆する破滅的な忘れを軽減できることを示した。
その結果, 視覚変換器, MLP-mixer, BERTアーキテクチャ間の精度を維持しつつ, 破滅的忘れ込みを最大18%削減し, 30-80%のアーキテクチャ圧縮を達成できた。
さらに,従来のプルーニング技術とACNを結合することにより,従来のアーキテクチャと比較して,空間特性と性能のトレードオフを大幅に改善できることを示す。
これらの知見は、堅牢な表現を学習しながら、計算フットプリントをタスクの複雑さに自動的に適応する効率的なニューラルネットワークを開発するための実践的なアプローチとしてACNを確立している。
関連論文リスト
- Lattice-Based Pruning in Recurrent Neural Networks via Poset Modeling [0.0]
リカレントニューラルネットワーク(RNN)はシーケンスモデリングタスクの中心であるが、その高い計算複雑性はスケーラビリティとリアルタイムデプロイメントの課題を引き起こす。
本稿では,RNNを部分的に順序付けられた集合(命題)としてモデル化し,対応する依存格子を構成する新しいフレームワークを提案する。
既約ニューロンを同定することにより、格子ベースのプルーニングアルゴリズムは、冗長なニューロンを除去しながら、重要な接続を選択的に保持する。
論文 参考訳(メタデータ) (2025-02-23T10:11:38Z) - OTOv3: Automatic Architecture-Agnostic Neural Network Training and
Compression from Structured Pruning to Erasing Operators [57.145175475579315]
このトピックは、構造化プルーニングからニューラルアーキテクチャサーチまで、さまざまなテクニックにまたがっている。
第3世代のOTOv3(Noth-Train-Once)を導入する。
我々は,構造化プルーニングとニューラルアーキテクチャ探索におけるOTOv3の有効性を実証した。
論文 参考訳(メタデータ) (2023-12-15T00:22:55Z) - STN: Scalable Tensorizing Networks via Structure-Aware Training and
Adaptive Compression [10.067082377396586]
本稿では,モデルサイズと分解構造を適応的に調整するスケーラビリティネットワーク(STN)を提案する。
STNは任意のネットワークアーキテクチャと互換性があり、他のテンソル化バージョンよりも高い圧縮性能と柔軟性を実現する。
論文 参考訳(メタデータ) (2022-05-30T15:50:48Z) - Image Superresolution using Scale-Recurrent Dense Network [30.75380029218373]
畳み込みニューラルネットワーク(CNN)の設計の最近の進歩は、画像超解像(SR)の性能を大幅に向上させた。
残差ブロック内の一連の密接な接続を含む単位上に構築されたスケールリカレントSRアーキテクチャを提案する(Residual Dense Blocks (RDBs))。
我々のスケールリカレント設計は、現在の最先端のアプローチに比べてパラメトリックに効率的でありながら、より高いスケール要因の競合性能を提供する。
論文 参考訳(メタデータ) (2022-01-28T09:18:43Z) - SIRe-Networks: Skip Connections over Interlaced Multi-Task Learning and
Residual Connections for Structure Preserving Object Classification [28.02302915971059]
本稿では、オブジェクト分類タスクにおける消失勾配を低減するために、SIReを定義したインターレース型マルチタスク学習戦略を提案する。
提案手法は、自動エンコーダを介して入力画像構造を保存することにより、畳み込みニューラルネットワーク(CNN)を直接改善する。
提案手法を検証するため、SIRe戦略を介して単純なCNNと有名なネットワークの様々な実装を拡張し、CIFAR100データセットで広範囲にテストする。
論文 参考訳(メタデータ) (2021-10-06T13:54:49Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Improving Neural Network Robustness through Neighborhood Preserving
Layers [0.751016548830037]
このような層を組み込むことができ、効率的にトレーニングできる新しいニューラルネットワークアーキテクチャを実証する。
我々は、設計したネットワークアーキテクチャが、最先端の勾配に基づく攻撃に対してより堅牢であることを実証的に示す。
論文 参考訳(メタデータ) (2021-01-28T01:26:35Z) - Learning Deep Interleaved Networks with Asymmetric Co-Attention for
Image Restoration [65.11022516031463]
本稿では,高品質(本社)画像再構成のために,異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。
本稿では,各インターリーブノードにアタッチメントされた非対称なコアテンション(AsyCA)を提案し,その特性依存性をモデル化する。
提案したDINはエンドツーエンドで訓練でき、様々な画像復元タスクに適用できる。
論文 参考訳(メタデータ) (2020-10-29T15:32:00Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。