論文の概要: PFGNet: A Fully Convolutional Frequency-Guided Peripheral Gating Network for Efficient Spatiotemporal Predictive Learning
- arxiv url: http://arxiv.org/abs/2602.20537v1
- Date: Tue, 24 Feb 2026 04:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.6018
- Title: PFGNet: A Fully Convolutional Frequency-Guided Peripheral Gating Network for Efficient Spatiotemporal Predictive Learning
- Title(参考訳): PFGNet:時空間予測学習のための完全畳み込み周波数誘導周辺ゲーティングネットワーク
- Authors: Xinyong Cai, Changbin Sun, Yong Wang, Hongyu Yang, Yuankai Wu,
- Abstract要約: PFGNetは、ピクセルワイドの周波数誘導ゲーティングによって受容場を動的に変調する完全な畳み込みフレームワークである。
PFGNetは、パラメータとFLOPが大幅に少ないSOTAまたは近SOTA予測性能を提供する。
- 参考スコア(独自算出の注目度): 27.26429269735324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatiotemporal predictive learning (STPL) aims to forecast future frames from past observations and is essential across a wide range of applications. Compared with recurrent or hybrid architectures, pure convolutional models offer superior efficiency and full parallelism, yet their fixed receptive fields limit their ability to adaptively capture spatially varying motion patterns. Inspired by biological center-surround organization and frequency-selective signal processing, we propose PFGNet, a fully convolutional framework that dynamically modulates receptive fields through pixel-wise frequency-guided gating. The core Peripheral Frequency Gating (PFG) block extracts localized spectral cues and adaptively fuses multi-scale large-kernel peripheral responses with learnable center suppression, effectively forming spatially adaptive band-pass filters. To maintain efficiency, all large kernels are decomposed into separable 1D convolutions ($1 \times k$ followed by $k \times 1$), reducing per-channel computational cost from $O(k^2)$ to $O(2k)$. PFGNet enables structure-aware spatiotemporal modeling without recurrence or attention. Experiments on Moving MNIST, TaxiBJ, Human3.6M, and KTH show that PFGNet delivers SOTA or near-SOTA forecasting performance with substantially fewer parameters and FLOPs. Our code is available at https://github.com/fhjdqaq/PFGNet.
- Abstract(参考訳): 時空間予測学習(STPL)は、過去の観測から将来のフレームを予測することを目的としており、幅広い応用において不可欠である。
リカレントアーキテクチャやハイブリッドアーキテクチャと比較して、純粋な畳み込みモデルは優れた効率性と完全な並列性を提供するが、それらの固定受容場は空間的に変化する動きパターンを適応的に捉える能力を制限する。
生体中心を包含する組織と周波数選択的な信号処理に着想を得たPFGNetを提案する。
コア周周波ゲーティング(PFG)ブロックは、局所化されたスペクトルキューを抽出し、学習可能な中心抑制によるマルチスケールの大カーネル周辺応答を適応的に融合し、空間適応帯域通過フィルタを効果的に形成する。
効率を維持するため、全ての大きなカーネルは分離可能な1D畳み込み(1 \times k$ と $k \times 1$ に分解され、計算コストは$O(k^2)$ から$O(2k)$ に削減される。
PFGNetは、繰り返しや注意を払わずに、構造を意識した時空間モデリングを可能にする。
MNIST、TaxiBJ、Human3.6M、KTHの移動実験では、PFGNetは、パラメータとFLOPが大幅に少ないSOTAまたは近SOTA予測性能を提供する。
私たちのコードはhttps://github.com/fhjdqaq/PFGNetで利用可能です。
関連論文リスト
- SPECTRE: An FFT-Based Efficient Drop-In Replacement to Self-Attention for Long Contexts [2.200751835496112]
長文変換器は、自己注意の二次的なコストのため、大幅な効率の課題に直面している。
本稿では,各注目ヘッドを高速な実FFTで置き換えるSPECTREを提案する。
我々は、この効率をPrefix-FFTキャッシュを介して自動回帰生成に拡張し、オプションのウェーブレットモジュールで局所的な特徴表現を強化する。
論文 参考訳(メタデータ) (2025-02-25T17:43:43Z) - RecConv: Efficient Recursive Convolutions for Multi-Frequency Representations [8.346566205092433]
RecConvは、小さなカーネル畳み込みを用いた多周波表現を効率的に構築する分解戦略である。
RecNeXt-M3 は RepViT-M1.1 を COCO 上で 1.9$APbox$ で上回っている。
論文 参考訳(メタデータ) (2024-12-27T13:13:52Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Dynamic PlenOctree for Adaptive Sampling Refinement in Explicit NeRF [6.135925201075925]
PlenOctree DOTは,シーンの複雑さの変化に対応するために,サンプル分布を適応的に改良する。
POTと比較して、私たちのDOTは視覚的品質を高め、パラメータを55.15ドル/68.84%以上削減し、NeRF合成とタンクにそれぞれ1.7/1.9 FPSを提供する。
論文 参考訳(メタデータ) (2023-07-28T06:21:42Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - PSConv: Squeezing Feature Pyramid into One Compact Poly-Scale
Convolutional Layer [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、しばしばスケールに敏感である。
我々は、この後悔を、より細かい粒度でマルチスケールの機能を利用して埋める。
提案した畳み込み演算は、PSConv(Poly-Scale Convolution)と呼ばれ、拡張率のスペクトルを混合する。
論文 参考訳(メタデータ) (2020-07-13T05:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。