論文の概要: A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency
- arxiv url: http://arxiv.org/abs/2505.18024v1
- Date: Fri, 23 May 2025 15:28:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.194175
- Title: A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency
- Title(参考訳): ウェーブレットを用いた周波数収束不整合解消のためのステレオマッチングフレームワーク
- Authors: Xiaobao Wei, Jiawei Liu, Dongbo Yang, Junda Cheng, Changyong Shu, Wei Wang,
- Abstract要約: 周波数収束不整合を解消するためのウェーブレットベースのステレオマッチングフレームワーク(ウェーブレット・ステレオ)を提案する。
高周波数成分と低周波成分を別々に処理することで、我々は、エッジにおける高周波情報とスムーズな領域における低周波情報を同時に洗練することができる。
- 参考スコア(独自算出の注目度): 9.668149257194887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We find that the EPE evaluation metrics of RAFT-stereo converge inconsistently in the low and high frequency regions, resulting high frequency degradation (e.g., edges and thin objects) during the iterative process. The underlying reason for the limited performance of current iterative methods is that it optimizes all frequency components together without distinguishing between high and low frequencies. We propose a wavelet-based stereo matching framework (Wavelet-Stereo) for solving frequency convergence inconsistency. Specifically, we first explicitly decompose an image into high and low frequency components using discrete wavelet transform. Then, the high-frequency and low-frequency components are fed into two different multi-scale frequency feature extractors. Finally, we propose a novel LSTM-based high-frequency preservation update operator containing an iterative frequency adapter to provide adaptive refined high-frequency features at different iteration steps by fine-tuning the initial high-frequency features. By processing high and low frequency components separately, our framework can simultaneously refine high-frequency information in edges and low-frequency information in smooth regions, which is especially suitable for challenging scenes with fine details and textures in the distance. Extensive experiments demonstrate that our Wavelet-Stereo outperforms the state-of-the-art methods and ranks 1st on both the KITTI 2015 and KITTI 2012 leaderboards for almost all metrics. We will provide code and pre-trained models to encourage further exploration, application, and development of our innovative framework (https://github.com/SIA-IDE/Wavelet-Stereo).
- Abstract(参考訳): RAFTステレオのEPE評価指標は低域と高域に不整合に収束し, 繰り返し処理中に高周波劣化(例えば, エッジ, 薄い物体)が発生することがわかった。
現在の反復法の限られた性能の根本的な理由は、高周波数と低周波数を区別することなく、全ての周波数成分を同時に最適化するからである。
周波数収束不整合を解消するためのウェーブレットベースのステレオマッチングフレームワーク(ウェーブレット・ステレオ)を提案する。
具体的には、まず、離散ウェーブレット変換を用いて、画像を高周波数成分と低周波数成分に明示的に分解する。
そして、高周波および低周波成分を2つの異なるマルチスケール周波数特徴抽出器に供給する。
最後に、繰り返し周波数アダプタを内蔵したLSTMベースの新しい高周波更新演算子を提案し、初期高周波特徴を微調整することにより、異なる繰り返しステップで適応的に洗練された高周波特徴を提供する。
高周波数成分と低周波成分を別々に処理することにより、我々は、細部やテクスチャの細かい挑戦シーンに特に適した、エッジの高周波情報とスムーズな領域の低周波情報を同時に洗練することができる。
大規模な実験では、Wavelet-Stereoは最先端の手法より優れており、ほぼすべての指標でKITTI 2015とKITTI 2012のリーダーボードで第1位です。
我々は、革新的なフレームワーク(https://github.com/SIA-IDE/Wavelet-Stereo)のさらなる探索、アプリケーション、開発を促進するために、コードと事前訓練されたモデルを提供します。
関連論文リスト
- BEAT: Balanced Frequency Adaptive Tuning for Long-Term Time-Series Forecasting [46.922741972636025]
時系列予測は、天気予報や金融市場モデリングを含む多くの現実世界のアプリケーションにとって不可欠である。
BEAT(Balanced frequency Adaptive Tuning)は、各周波数のトレーニング状況を監視し、勾配更新を適応的に調整する新しいフレームワークである。
BEATは7つの実世界のデータセットの実験において、最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-31T11:52:35Z) - Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection [8.607385112274882]
深層学習は、RGB画像と熱画像(RGB-T画像)を併用したサルエント物体検出(SOD)を大幅に改善した。
既存のディープラーニングベースのRGB-T SODモデルには2つの大きな制限がある。
本稿では,DFENet(Deep Fourier-Embedded Network)という,純粋なフーリエ変換モデルを提案する。
論文 参考訳(メタデータ) (2024-11-27T14:55:16Z) - Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution [15.610136214020947]
暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。
既存のほとんどの手法は、クエリされた座標と近くの特徴のアンサンブルに基づいて、SR画像中のピクセルを予測する。
本稿では,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
論文 参考訳(メタデータ) (2024-11-10T12:21:14Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。
本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文 参考訳(メタデータ) (2024-01-04T08:58:25Z) - WaveNeRF: Wavelet-based Generalizable Neural Radiance Fields [149.2296890464997]
我々は、ウェーブレット周波数分解をMVSとNeRFに統合したWaveNeRFを設計する。
WaveNeRFは、3つの画像のみを入力として与えたときに、より優れた一般化可能な放射場モデリングを実現する。
論文 参考訳(メタデータ) (2023-08-09T09:24:56Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。
VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文 参考訳(メタデータ) (2020-05-07T09:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。