論文の概要: WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation
- arxiv url: http://arxiv.org/abs/2601.08602v1
- Date: Tue, 13 Jan 2026 14:47:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.232999
- Title: WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation
- Title(参考訳): WaveFormer:波動方程式を用いた周波数時間非結合ビジョンモデリング
- Authors: Zishan Shu, Juntong Wu, Wei Yan, Xudong Liu, Hongyu Zhang, Chang Liu, Youdong Mao, Jie Chen,
- Abstract要約: 視覚モデリングはトランスフォーマーによって急速に進歩し、注意機構は視覚的依存を捉えるが、意味情報が空間的にどのように伝播するかという原則的な説明は欠いている。
我々はこの問題を波面から再検討し、内部伝播時間における空間信号として特徴写像を下水波方程式で制御する。
本稿では,標準VTやCNNのドロップイン置換としてWaveFormerモデルのファミリを提案し,画像分類,オブジェクト検出,セマンティックセグメンテーションにおける競合精度を実現する。
- 参考スコア(独自算出の注目度): 24.13944601660532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision modeling has advanced rapidly with Transformers, whose attention mechanisms capture visual dependencies but lack a principled account of how semantic information propagates spatially. We revisit this problem from a wave-based perspective: feature maps are treated as spatial signals whose evolution over an internal propagation time (aligned with network depth) is governed by an underdamped wave equation. In this formulation, spatial frequency-from low-frequency global layout to high-frequency edges and textures-is modeled explicitly, and its interaction with propagation time is controlled rather than implicitly fixed. We derive a closed-form, frequency-time decoupled solution and implement it as the Wave Propagation Operator (WPO), a lightweight module that models global interactions in O(N log N) time-far lower than attention. Building on WPO, we propose a family of WaveFormer models as drop-in replacements for standard ViTs and CNNs, achieving competitive accuracy across image classification, object detection, and semantic segmentation, while delivering up to 1.6x higher throughput and 30% fewer FLOPs than attention-based alternatives. Furthermore, our results demonstrate that wave propagation introduces a complementary modeling bias to heat-based methods, effectively capturing both global coherence and high-frequency details essential for rich visual semantics. Codes are available at: https://github.com/ZishanShu/WaveFormer.
- Abstract(参考訳): 視覚モデリングはトランスフォーマーによって急速に進歩し、注意機構は視覚的依存を捉えるが、意味情報が空間的にどのように伝播するかという原則的な説明は欠いている。
特徴写像は空間的信号として扱われ,内部伝播時間(ネットワーク深度に整合した)の進化は弱弱波動方程式によって制御される。
この定式化では、低周波グローバルレイアウトから高周波エッジやテクスチャに至るまでの空間周波数を明示的にモデル化し、その伝播時間との相互作用を暗黙的に固定するのではなく制御する。
我々は,O(N log N) における大域的相互作用を注意より低くモデル化する軽量モジュールである Wave Propagation Operator (WPO) として実装した。
WPO 上に構築した WaveFormer モデル群を,標準的な ViT や CNN のドロップイン置換として提案し,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションにおける競合精度を実現し,最大 1.6 倍のスループットと FLOP の30% 削減を実現した。
さらに,波動伝搬は熱に基づく手法に相補的モデリングバイアスを導入し,リッチな視覚的意味論に不可欠な大域的コヒーレンスと高周波の詳細の両方を効果的に捉えた。
コードは、https://github.com/ZishanShu/WaveFormer.comで入手できる。
関連論文リスト
- AWEMixer: Adaptive Wavelet-Enhanced Mixer Network for Long-Term Time Series Forecasting [12.450099337354017]
適応ウェーブレット強化ミキサーネットワークであるAWEMixerを提案する。
周波数ルータは、Fast Fourier Transformによって達成された大域的周期パターンを利用して、局所化ウェーブレットサブバンドを適応的に重み付けする。
コヒーレントゲート融合ブロックは、多スケール時間表現による顕著な周波数特徴の選択的統合を実現する。
論文 参考訳(メタデータ) (2025-11-06T11:27:12Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - A Causality- and Frequency-Aware Deep Learning Framework for Wave Elevation Prediction Behind Floating Breakwaters [7.667077185318874]
既存のディープラーニングアプローチは、目に見えない操作条件下での限定的な一般化能力を示す。
E2E-FANetは、波と構造物の関係をモデル化するために設計された、新しいエンドツーエンドニューラルネットワークである。
主流モデルと比較して予測精度とロバストな一般化を実現している。
論文 参考訳(メタデータ) (2025-05-10T16:28:48Z) - 3D Wavelet Convolutions with Extended Receptive Fields for Hyperspectral Image Classification [12.168520751389622]
ディープニューラルネットワークは、ハイパースペクトル画像分類において多くの課題に直面している。
本稿ではウェーブレット変換と統合された改良型3D-DenseNetモデルWCNetを提案する。
実験結果から,IN,UP,KSCデータセットにおいて優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-15T01:39:42Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。
波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文 参考訳(メタデータ) (2024-08-14T13:36:17Z) - Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。
ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-07-27T06:53:16Z) - Machine learning for phase-resolved reconstruction of nonlinear ocean
wave surface elevations from sparse remote sensing data [37.69303106863453]
ニューラルネットワークを用いた位相分解波面再構成のための新しい手法を提案する。
提案手法は,一次元格子を用いた合成的かつ高精度な訓練データを利用する。
論文 参考訳(メタデータ) (2023-05-18T12:30:26Z) - Learning Wave Propagation with Attention-Based Convolutional Recurrent
Autoencoder Net [0.0]
本稿では、波動伝播現象のデータ駆動モデリングのための、エンド・ツー・エンドの注意に基づく畳み込み再帰型オートエンコーダ(AB-CRAN)ネットワークを提案する。
波動伝搬に時間依存の双曲偏微分方程式で与えられる全階スナップショットから、デノナイジングに基づく畳み込みオートエンコーダを用いる。
注意に基づくシーケンス・ツー・シーケンス・ネットワークは、通常のRNN-LSTMと比較して、予測の時間-水平を5倍増加させる。
論文 参考訳(メタデータ) (2022-01-17T20:51:59Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。