論文の概要: RecConv: Efficient Recursive Convolutions for Multi-Frequency Representations
- arxiv url: http://arxiv.org/abs/2412.19628v1
- Date: Fri, 27 Dec 2024 13:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:26:05.490435
- Title: RecConv: Efficient Recursive Convolutions for Multi-Frequency Representations
- Title(参考訳): RecConv: マルチ周波数表現のための効率的な再帰的畳み込み
- Authors: Mingshu Zhao, Yi Luo, Yong Ouyang,
- Abstract要約: RecConvは、小さなカーネル畳み込みを用いた多周波表現を効率的に構築する分解戦略である。
RecNeXt-M3 は RepViT-M1.1 を COCO 上で 1.9$APbox$ で上回っている。
- 参考スコア(独自算出の注目度): 8.346566205092433
- License:
- Abstract: Recent advances in vision transformers (ViTs) have demonstrated the advantage of global modeling capabilities, prompting widespread integration of large-kernel convolutions for enlarging the effective receptive field (ERF). However, the quadratic scaling of parameter count and computational complexity (FLOPs) with respect to kernel size poses significant efficiency and optimization challenges. This paper introduces RecConv, a recursive decomposition strategy that efficiently constructs multi-frequency representations using small-kernel convolutions. RecConv establishes a linear relationship between parameter growth and decomposing levels which determines the effective kernel size $k\times 2^\ell$ for a base kernel $k$ and $\ell$ levels of decomposition, while maintaining constant FLOPs regardless of the ERF expansion. Specifically, RecConv achieves a parameter expansion of only $\ell+2$ times and a maximum FLOPs increase of $5/3$ times, compared to the exponential growth ($4^\ell$) of standard and depthwise convolutions. RecNeXt-M3 outperforms RepViT-M1.1 by 1.9 $AP^{box}$ on COCO with similar FLOPs. This innovation provides a promising avenue towards designing efficient and compact networks across various modalities. Codes and models can be found at \url{https://github.com/suous/RecNeXt}.
- Abstract(参考訳): 近年の視覚変換器(ViT)の進歩は、大域的モデリング能力の優位性を証明し、実効性受容場(ERF)を拡大するために、大カーネルの畳み込みが広く統合されていることを示唆している。
しかし、カーネルサイズに対するパラメータカウントと計算複雑性(FLOP)の2次スケーリングは、大幅な効率と最適化の課題をもたらす。
本稿では,マイクロカーネル畳み込みを用いた多周波表現を効率的に構築する再帰的分解戦略であるRecConvを紹介する。
RecConv は、パラメータ成長と分解レベルの間の線形関係を確立し、ERF の拡張にかかわらず定数 FLOP を維持しながら、ベースカーネル $k$ と $\ell$ に対して有効カーネルサイズ $k\times 2^\ell$ を決定する。
具体的には、RecConvは、標準および深度の畳み込みの指数的な成長(4^\ell$)と比較して、わずか$\ell+2$倍のパラメータ展開と最大FLOPの最大5/3$倍の増加を達成する。
RecNeXt-M3は、同様のFLOPを持つCOCO上でRepViT-M1.1より1.9ドル高い。
この革新は、様々なモダリティにまたがる効率的でコンパクトなネットワークを設計するための有望な道を提供する。
コードとモデルは \url{https://github.com/suous/RecNeXt} で見ることができる。
関連論文リスト
- Reparameterized Multi-Resolution Convolutions for Long Sequence Modelling [13.627888191693712]
本稿では,大域的畳み込みカーネルのパラメータ化手法を提案する。
本実験は,Long Range Arena,Sequential CIFAR,Speech Commandsタスクにおける最先端性能を示す。
また、2次元畳み込みを1D $textttMRConv$レイヤに置き換えることで、ImageNet分類の性能も向上したと報告した。
論文 参考訳(メタデータ) (2024-08-18T12:20:03Z) - State-Free Inference of State-Space Models: The Transfer Function Approach [132.83348321603205]
状態のない推論では、状態サイズが大きくなると大きなメモリや計算コストは発生しない。
提案した周波数領域転送関数のパラメトリゼーション特性を用いてこれを実現する。
長い畳み込みハイエナベースライン上での言語モデリングにおける難易度の改善を報告した。
論文 参考訳(メタデータ) (2024-05-10T00:06:02Z) - FlashFFTConv: Efficient Convolutions for Long Sequences with Tensor
Cores [18.016204763652553]
長いフィルタを持つ畳み込みモデルは、多くの長いシーケンスタスクにおいて最先端の推論能力を示している。
Fast Fourier Transform (FFT) は、長い畳み込みを$O(N logN)$ time in sequence length $N$で実行可能にするが、ハードウェア利用は乏しい。
本稿では,FFT畳み込みの最適化方法について検討する。
論文 参考訳(メタデータ) (2023-11-10T07:33:35Z) - Fully $1\times1$ Convolutional Network for Lightweight Image
Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。
$1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。
我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T06:24:03Z) - Dynamic PlenOctree for Adaptive Sampling Refinement in Explicit NeRF [6.135925201075925]
PlenOctree DOTは,シーンの複雑さの変化に対応するために,サンプル分布を適応的に改良する。
POTと比較して、私たちのDOTは視覚的品質を高め、パラメータを55.15ドル/68.84%以上削減し、NeRF合成とタンクにそれぞれ1.7/1.9 FPSを提供する。
論文 参考訳(メタデータ) (2023-07-28T06:21:42Z) - FInC Flow: Fast and Invertible $k \times k$ Convolutions for Normalizing
Flows [2.156373334386171]
可逆畳み込みは、表現的正規化フローベース生成モデルを構築する上で不可欠な要素である。
我々は、$k倍の畳み込み層とDeep Normalizing Flowアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-01-23T04:31:03Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - DO-Conv: Depthwise Over-parameterized Convolutional Layer [66.46704754669169]
本稿では,各入力チャネルが異なる2次元カーネルに変換されるような,奥行きの畳み込みを付加した畳み込み層の拡張を提案する。
従来の畳み込み層をDO-Conv層に置き換えただけでCNNの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-06-22T06:57:10Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。