論文の概要: $S^2M^2$: Scalable Stereo Matching Model for Reliable Depth Estimation
- arxiv url: http://arxiv.org/abs/2507.13229v3
- Date: Wed, 30 Jul 2025 16:27:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 18:23:25.163349
- Title: $S^2M^2$: Scalable Stereo Matching Model for Reliable Depth Estimation
- Title(参考訳): S^2M^2$:信頼度推定のためのスケーラブルステレオマッチングモデル
- Authors: Junhong Min, Youngpil Jeon, Jimin Kim, Minyong Choi,
- Abstract要約: 一般化可能なステレオマッチングモデルは、データセット固有の微調整なしで、様々な解像度と異種範囲でうまく動作することができる。
反復的局所探索法は制約付きベンチマークで高いスコアを得るが、そのコアメカニズムは真の一般化に必要な大域的な一貫性を制限する。
我々は,コストボリュームフィルタリングや深部精錬スタックに頼ることなく,最先端の精度と高効率を実現するグローバルマッチングアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 0.47676805869864924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The pursuit of a generalizable stereo matching model, capable of performing well across varying resolutions and disparity ranges without dataset-specific fine-tuning, has revealed a fundamental trade-off. Iterative local search methods achieve high scores on constrained benchmarks, but their core mechanism inherently limits the global consistency required for true generalization. However, global matching architectures, while theoretically more robust, have historically been rendered infeasible by prohibitive computational and memory costs. We resolve this dilemma with $S^2M^2$: a global matching architecture that achieves state-of-the-art accuracy and high efficiency without relying on cost volume filtering or deep refinement stacks. Our design integrates a multi-resolution transformer for robust long-range correspondence, trained with a novel loss function that concentrates probability on feasible matches. This approach enables a more robust joint estimation of disparity, occlusion, and confidence. $S^2M^2$ establishes a new state of the art on Middlebury v3 and ETH3D benchmarks, significantly outperforming prior methods in most metrics while reconstructing high-quality details with competitive efficiency.
- Abstract(参考訳): データセット固有の微調整をせずに、様々な解像度と不均一範囲にわたってうまく機能する、一般化可能なステレオマッチングモデルの追求により、基本的なトレードオフが明らかとなった。
反復的局所探索法は制約付きベンチマークで高いスコアを得るが、そのコアメカニズムは本質的に真の一般化に必要な大域的な一貫性を制限する。
しかし、グローバルマッチングアーキテクチャは理論的にはより堅牢であるが、歴史的に計算とメモリのコストの禁止によって実現不可能になってきた。
このジレンマを$S^2M^2$:コストボリュームフィルタリングや深部精錬スタックに頼ることなく、最先端の精度と高効率を実現するグローバルマッチングアーキテクチャで解決する。
提案設計では, 高い長範囲対応性を持つマルチレゾリューショントランスフォーマを統合し, 実現可能な一致の確率を集中する新たな損失関数を学習する。
このアプローチは、より堅牢な共同評価を可能にする。
S^2M^2$は、ミドルベリー v3 と ETH3D ベンチマークの新たな最先端性を確立し、競争効率で高品質な詳細を再構築しながら、ほとんどのメトリクスで先行手法よりも大幅に優れている。
関連論文リスト
- NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Factorized Implicit Global Convolution for Automotive Computational Fluid Dynamics Prediction [52.32698071488864]
非常に大きな3DメッシュのCFD問題を効率的に解く新しいアーキテクチャであるFactized Implicit Global Convolution (FIGConv)を提案する。
FIGConvは、既存の3DニューラルCFDモデルよりも大幅に改善された2次複雑性の$O(N2)$を達成する。
業界標準のAhmedボディデータセットと大規模DrivAerNetデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:57:57Z) - Tiny Deep Ensemble: Uncertainty Estimation in Edge AI Accelerators via Ensembling Normalization Layers with Shared Weights [0.8233872344445676]
AI駆動システムでは、不確実性推定により、ユーザーは過信予測を避け、機能的安全性を達成することができる。
エッジデバイスにおける不確実性推定のための低コストなアプローチであるTiny-Deep Ensembleアプローチを提案する。
提案手法は精度を損なわないが,予測精度は最大で$sim 1%$,RMSEは17.17%$である。
論文 参考訳(メタデータ) (2024-05-07T22:54:17Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - DeepHAM: A Global Solution Method for Heterogeneous Agent Models with
Aggregate Shocks [9.088303226909277]
ヘテロジニアスエージェントモデル(DeepHAM$)のための,効率よく,信頼性が高く,解釈可能なグローバルソリューション法である$textitDeep学習ベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-29T03:09:19Z) - Generalizable Mixed-Precision Quantization via Attribution Rank
Preservation [90.26603048354575]
効率的な推論のための一般化可能な混合精度量子化法(GMPQ)を提案する。
提案手法は,最先端の混合精度ネットワークと比較し,競合精度・複雑度トレードオフを求める。
論文 参考訳(メタデータ) (2021-08-05T16:41:57Z) - CFNet: Cascade and Fused Cost Volume for Robust Stereo Matching [27.313740022587442]
ステレオマッチングネットワークのロバスト性を改善するために,カスケードとフューズドのコストボリュームに基づくネットワークCFNetを提案する。
分散に基づく不確実性推定を用いて、次の段階の差分探索空間を適応的に調整する。
提案手法は、最先端の総合性能を達成し、Robust Vision Challenge 2020のステレオタスクで1位を獲得します。
論文 参考訳(メタデータ) (2021-04-09T11:38:59Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - AANet: Adaptive Aggregation Network for Efficient Stereo Matching [33.39794232337985]
現在の最先端ステレオモデルは、ほとんどが高価な3D畳み込みに基づいている。
エッジフェットング問題を緩和するために,スパースポイントに基づくスケール内コストアグリゲーション手法を提案する。
また、従来のクロススケールなコスト集約アルゴリズムをニューラルネットワーク層に近似して、大きなテクスチャレス領域を処理する。
論文 参考訳(メタデータ) (2020-04-20T18:07:55Z) - Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by
Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。
本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文 参考訳(メタデータ) (2020-02-24T00:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。