論文の概要: Generalized Geometry Encoding Volume for Real-time Stereo Matching
- arxiv url: http://arxiv.org/abs/2512.06793v1
- Date: Sun, 07 Dec 2025 11:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.531984
- Title: Generalized Geometry Encoding Volume for Real-time Stereo Matching
- Title(参考訳): リアルタイムステレオマッチングのための一般化幾何符号化ボリューム
- Authors: Jiaxin Liu, Gangwei Xu, Xianqi Wang, Chengliang Zhang, Xin Yang,
- Abstract要約: Generalized Geometry Volume (GGEV) は、強力な一般化を実現する新しいリアルタイムステレオマッチングネットワークである。
GGEVはゼロショット一般化能力において,既存のすべてのリアルタイム手法を超越していることを示す。
- 参考スコア(独自算出の注目度): 18.857989746328155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time stereo matching methods primarily focus on enhancing in-domain performance but often overlook the critical importance of generalization in real-world applications. In contrast, recent stereo foundation models leverage monocular foundation models (MFMs) to improve generalization, but typically suffer from substantial inference latency. To address this trade-off, we propose Generalized Geometry Encoding Volume (GGEV), a novel real-time stereo matching network that achieves strong generalization. We first extract depth-aware features that encode domain-invariant structural priors as guidance for cost aggregation. Subsequently, we introduce a Depth-aware Dynamic Cost Aggregation (DDCA) module that adaptively incorporates these priors into each disparity hypothesis, effectively enhancing fragile matching relationships in unseen scenes. Both steps are lightweight and complementary, leading to the construction of a generalized geometry encoding volume with strong generalization capability. Experimental results demonstrate that our GGEV surpasses all existing real-time methods in zero-shot generalization capability, and achieves state-of-the-art performance on the KITTI 2012, KITTI 2015, and ETH3D benchmarks.
- Abstract(参考訳): リアルタイムステレオマッチング法は主にドメイン内のパフォーマンスの向上に重点を置いているが、現実のアプリケーションにおける一般化の重要な重要性を見落としていることが多い。
対照的に、最近のステレオ基礎モデルは、一般化を改善するために単分子基礎モデル(MFM)を利用するが、典型的にはかなりの推論遅延に悩まされる。
このトレードオフに対処するため、我々は強力な一般化を実現する新しいリアルタイムステレオマッチングネットワークであるGeneralized Geometry Encoding Volume (GGEV)を提案する。
まず、コストアグリゲーションのガイダンスとして、ドメイン不変な構造的事前情報をエンコードする深度認識機能を抽出する。
その後,各相違仮説にこれらの先行情報を適応的に組み込んだDepth-aware Dynamic Cost Aggregation (DDCA) モジュールを導入し,未確認シーンにおける脆弱なマッチング関係を効果的に強化する。
どちらのステップも軽量で相補的であり、強力な一般化能力を持つ一般化幾何符号化ボリュームの構築に繋がる。
実験の結果,GGEVはゼロショット一般化能力で既存のすべてのリアルタイム手法を超越し,KITTI 2012,KITTI 2015,ETH3Dベンチマークの最先端性能を達成した。
関連論文リスト
- Deepfake Detection that Generalizes Across Benchmarks [48.85953407706351]
ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
この研究は、基礎となる事前学習された視覚エンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - Explaining the role of Intrinsic Dimensionality in Adversarial Training [31.495803865226158]
その結果,非多様体対向例(AEs)は強靭性を高め,一方,非多様体のAEsは一般化を向上させることがわかった。
SMAATは,最も内在次元の低い層を摂動させることにより,エンコーダモデルにおけるATのスケーラビリティを向上させる。
我々は、テキスト生成、感情分類、安全フィルタリング、検索強化生成設定など、複数のタスクにわたるSMAATを検証する。
論文 参考訳(メタデータ) (2024-05-27T12:48:30Z) - RobustMVS: Single Domain Generalized Deep Multi-view Stereo [27.92012008096311]
本研究は多視点ステレオ(MVS)における領域一般化問題に焦点をあてる。
合成および実世界のデータセットを含む新しいMVSドメイン一般化ベンチマークを構築した。
従来のドメイン一般化ベンチマークとは対照的に、トレーニング用に1つのソースドメインしか利用できない、より現実的で難しいシナリオを考えます。
論文 参考訳(メタデータ) (2024-05-15T06:56:05Z) - Strong but simple: A Baseline for Domain Generalized Dense Perception by CLIP-based Transfer Learning [6.532114018212791]
微調整された視覚言語事前学習モデルは、競争力やより強い一般化結果をもたらす。
これは、ドメインの一般化にImageNetベースの転送学習を使用するという標準に挑戦する。
また、ドメイン内一般化の改善により、Cityscapesテストセットの86.4% mIoUのSOTAが改善された。
論文 参考訳(メタデータ) (2023-12-04T16:46:38Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Depth Field Networks for Generalizable Multi-view Scene Representation [31.090289865520475]
我々は、ビューの多様性を高めるために、幾何学的帰納法として、一連の3次元データ拡張手法を導入し、暗黙的に多視点一貫したシーン表現を学習する。
我々のDeFiNe(Depth Field Networks)は、明示的な幾何学的制約を伴わずにステレオとビデオの深さを推定し、広いマージンでゼロショット領域の一般化を改善する。
論文 参考訳(メタデータ) (2022-07-28T17:59:31Z) - Evaluating the Generalization Ability of Super-Resolution Networks [45.867729539843]
本稿では,SRGAネットワークの一般化評価指標を提案する。
SRGAは、一般化能力を測定するためにディープネットワークの内部特性の統計特性を利用する。
一般化能力に関する既存のSRモデルをベンチマークする。
論文 参考訳(メタデータ) (2022-05-14T09:33:20Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Towards Principled Disentanglement for Domain Generalization [90.9891372499545]
機械学習モデルの根本的な課題は、アウト・オブ・ディストリビューション(OOD)データへの一般化である。
私たちはまず、DEC(Disentanglement-Constrained Domain Generalization)と呼ばれる制約付き最適化としてOOD一般化問題を定式化する。
この変換に基づいて、結合表現の不絡合と領域一般化のための原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-27T07:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。