論文の概要: MAFNet:Multi-frequency Adaptive Fusion Network for Real-time Stereo Matching
- arxiv url: http://arxiv.org/abs/2512.04358v1
- Date: Thu, 04 Dec 2025 01:08:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.946726
- Title: MAFNet:Multi-frequency Adaptive Fusion Network for Real-time Stereo Matching
- Title(参考訳): MAFNet:リアルタイムステレオマッチングのための多周波適応核融合ネットワーク
- Authors: Ao Xu, Rujin Zhao, Xiong Xu, Boceng Huang, Yujia Jia, Hongfeng Long, Fuxuan Chen, Zilong Cao, Fangyuan Chen,
- Abstract要約: 効率的な2次元畳み込みのみを用いて高品質な不均一写像を生成するための多周波適応核融合ネットワーク(MAFNet)を提案する。
提案したMAFNetは,Scene FlowやKITTI 2015などの公開データセット上で,既存のリアルタイム手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 2.0202997482095593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing stereo matching networks typically rely on either cost-volume construction based on 3D convolutions or deformation methods based on iterative optimization. The former incurs significant computational overhead during cost aggregation, whereas the latter often lacks the ability to model non-local contextual information. These methods exhibit poor compatibility on resource-constrained mobile devices, limiting their deployment in real-time applications. To address this, we propose a Multi-frequency Adaptive Fusion Network (MAFNet), which can produce high-quality disparity maps using only efficient 2D convolutions. Specifically, we design an adaptive frequency-domain filtering attention module that decomposes the full cost volume into high-frequency and low-frequency volumes, performing frequency-aware feature aggregation separately. Subsequently, we introduce a Linformer-based low-rank attention mechanism to adaptively fuse high- and low-frequency information, yielding more robust disparity estimation. Extensive experiments demonstrate that the proposed MAFNet significantly outperforms existing real-time methods on public datasets such as Scene Flow and KITTI 2015, showing a favorable balance between accuracy and real-time performance.
- Abstract(参考訳): 既存のステレオマッチングネットワークは典型的には3次元畳み込みに基づくコスト・ボリューム構成か反復最適化に基づく変形法に依存している。
前者はコストアグリゲーション中にかなりの計算オーバーヘッドを発生させるが、後者は非局所的な文脈情報をモデル化する能力に欠けることが多い。
これらの手法は、リソース制限されたモバイルデバイスでの互換性が低く、リアルタイムアプリケーションへのデプロイを制限している。
そこで本稿では,効率的な2次元畳み込みのみを用いて高品質な不均一写像を生成可能なマルチ周波数適応核融合ネットワーク(MAFNet)を提案する。
具体的には、適応周波数領域フィルタリングアテンションモジュールを設計し、全コストを高周波および低周波ボリュームに分解し、周波数認識機能アグリゲーションを別々に行う。
次に,Linformerをベースとした低ランクアテンション機構を導入し,高周波数情報と低周波情報を適応的に融合し,より堅牢な分散度推定を実現する。
大規模な実験により、提案されたMAFNetは、Scene FlowやKITTI 2015のような公開データセット上の既存のリアルタイムメソッドよりも大幅に優れており、精度とリアルタイムパフォーマンスのバランスが良好であることが示された。
関連論文リスト
- FreqFlow: Long-term forecasting using lightweight flow matching [3.5235875824926346]
本稿では、周波数領域における条件付きフローマッチングを利用して決定論的MSS予測を行う新しいフレームワークであるFreqFlowを紹介する。
FreqFlowは予測問題をスペクトル領域に変換し、振幅と位相シフトをモデル化する。
実世界のトラフィック速度、ボリューム、フローデータセットに関する実験は、FreqFlowが最先端の予測性能を達成することを実証している。
論文 参考訳(メタデータ) (2025-11-20T14:50:13Z) - AWEMixer: Adaptive Wavelet-Enhanced Mixer Network for Long-Term Time Series Forecasting [12.450099337354017]
適応ウェーブレット強化ミキサーネットワークであるAWEMixerを提案する。
周波数ルータは、Fast Fourier Transformによって達成された大域的周期パターンを利用して、局所化ウェーブレットサブバンドを適応的に重み付けする。
コヒーレントゲート融合ブロックは、多スケール時間表現による顕著な周波数特徴の選択的統合を実現する。
論文 参考訳(メタデータ) (2025-11-06T11:27:12Z) - Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models [57.49136894315871]
テストタイムスケーリングの新しいパラダイムは、推論モデルと生成視覚モデルにおいて驚くべきブレークスルーをもたらした。
本稿では,テスト時間スケーリングの知識をモデルに組み込むことの課題に対する1つの解決策を提案する。
拡散モデルにおいて、初期入力ノイズを変調するノイズハイパーネットワークにより、報酬誘導試験時間雑音の最適化を行う。
論文 参考訳(メタデータ) (2025-08-13T17:33:37Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - DYNAMITE: Dynamic Interplay of Mini-Batch Size and Aggregation Frequency
for Federated Learning with Static and Streaming Dataset [23.11152686493894]
Federated Learning(FL)は、異種エッジデバイスをコーディネートして、プライベートデータを共有せずにモデルトレーニングを実行する分散学習パラダイムである。
本稿では、バッチサイズと集約周波数の相互作用を利用して、動的FLトレーニングにおける収束、コスト、完了時間間のトレードオフをナビゲートする新しい解析モデルと最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-20T08:36:12Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - AA-RMVSNet: Adaptive Aggregation Recurrent Multi-view Stereo Network [8.127449025802436]
本稿では,AA-RMVSNetというアダプティブアグリゲーションを備えた長短期記憶(LSTM)に基づく,新しいマルチビューステレオネットワークを提案する。
まず、コンテキスト認識の畳み込みとマルチスケールアグリゲーションを用いて、画像の特徴を適応的に抽出するビュー内アグリゲーションモジュールを提案する。
本稿では,すべてのビューにおいて,より整合性のあるペアを保存可能な,適応的なピクセルワイドビューアグリゲーションのためのビュー間コストボリュームアグリゲーションモジュールを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:10:48Z) - ADCPNet: Adaptive Disparity Candidates Prediction Network for Efficient
Real-Time Stereo Matching [8.046317778069325]
粗粒度法は大規模ネットワークモデルのメモリ制約と速度制限を大幅に緩和した。
以前の粗大な設計では、粗大な格差マップを段階的に洗練するために、一定のオフセットと3つ以上のステージを使用する。
本稿では、より正確な不一致候補が提供される限り、より少ない段階で、粗い一致誤差を効率よく修正できると主張している。
論文 参考訳(メタデータ) (2020-11-18T01:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。