論文の概要: Geometry Reinforced Efficient Attention Tuning Equipped with Normals for Robust Stereo Matching
- arxiv url: http://arxiv.org/abs/2604.09142v1
- Date: Fri, 10 Apr 2026 09:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 17:57:53.79497
- Title: Geometry Reinforced Efficient Attention Tuning Equipped with Normals for Robust Stereo Matching
- Title(参考訳): ロバストステレオマッチングのための正規化による幾何学的強化高能率注意調整
- Authors: Jiahao Li, Xinhong Chen, Zhengmin Jiang, Cheng Huang, Yung-Hui Li, Jianping Wang,
- Abstract要約: Greatenは、表面正規化をドメイン不変、オブジェクト指向、および識別幾何学的手がかりとして組み込むフレームワークである。
エラーをETH3Dで30%減らし、8.5%は非ラテンビアブースターで、14.1%はKITTI-2015で減少する。
Greaten-IGEVはGREAT-IGEVより19.2%高速で、ミドルベリーでの高分解能(3K)推論をサポートし、相違範囲は768までである。
- 参考スコア(独自算出の注目度): 14.625772079623998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite remarkable advances in image-driven stereo matching over the past decade, Synthetic-to-Realistic Zero-Shot (Syn-to-Real) generalization remains an open challenge. This suboptimal generalization performance mainly stems from cross-domain shifts and ill-posed ambiguities inherent in image textures, particularly in occluded, textureless, repetitive, and non-Lambertian (specular/transparent) regions. To improve Syn-to-Real generalization, we propose GREATEN, a framework that incorporates surface normals as domain-invariant, object-intrinsic, and discriminative geometric cues to compensate for the limitations of image textures. The proposed framework consists of three key components. First, a Gated Contextual-Geometric Fusion (GCGF) module adaptively suppresses unreliable contextual cues in image features and fuses the filtered image features with normal-driven geometric features to construct domain-invariant and discriminative contextual-geometric representations. Second, a Specular-Transparent Augmentation (STA) strategy improves the robustness of GCGF against misleading visual cues in non-Lambertian regions. Third, sparse attention designs preserve the fine-grained global feature extraction capability of GREAT-Stereo for handling occlusion and texture-related ambiguities while substantially reducing computational overhead, including Sparse Spatial (SSA), Sparse Dual-Matching (SDMA), and Simple Volume (SVA) attentions. Trained exclusively on synthetic data such as SceneFlow, GREATEN-IGEV achieves outstanding Syn-to-Real performance. Specifically, it reduces errors by 30% on ETH3D, 8.5% on the non-Lambertian Booster, and 14.1% on KITTI-2015, compared to FoundationStereo, Monster-Stereo, and DEFOM-Stereo, respectively. In addition, GREATEN-IGEV runs 19.2% faster than GREAT-IGEV and supports high-resolution (3K) inference on Middlebury with disparity ranges up to 768.
- Abstract(参考訳): 過去10年間の画像駆動型ステレオマッチングの顕著な進歩にもかかわらず、Syn-to-Realistic Zero-Shot(Syn-to-Real)の一般化は未解決の課題である。
この準最適一般化性能は、主に、画像テクスチャ、特に隠蔽された、テクスチャなし、反復的、非ランベルト的(特異/透明)領域に固有のクロスドメインシフトと不定形曖昧性に由来する。
画像テクスチャの限界を補うために, 表面正規化をドメイン不変, オブジェクト固有, 識別幾何学的キューとして組み込んだフレームワークであるGREATENを提案する。
提案するフレームワークは,3つの重要なコンポーネントで構成されている。
まず、Gated Contextual-Geometric Fusion (GCGF)モジュールは、画像特徴の信頼性の低いコンテキストキューを適応的に抑制し、通常の幾何学的特徴を持つフィルタ画像特徴を融合させ、ドメイン不変かつ識別的文脈幾何学的表現を構築する。
第2に、STA(Specular-Transparent Augmentation)戦略は、非ランベルト領域の視覚的手がかりを誤解させるためのGCGFの堅牢性を改善する。
第3に, スパース空間(SSA), スパースデュアルマッチング(SDMA), 単純体積(SVA)といった計算オーバーヘッドを著しく低減しつつ, 咬合やテクスチャ関連曖昧性を扱うためのGREAT-Stereoの細粒度のグローバル特徴抽出能力を維持している。
GREATEN-IGEVはSceneFlowのような合成データのみに訓練されており、優れたSyn-to-Realパフォーマンスを実現している。
具体的には、ETH3Dで30%、非ランベルトブースターで8.5%、KITTI-2015で14.1%の誤差を、FoundationStereo、Monster-Stereo、DEFOM-Stereoと比較して減少させる。
加えて、GREATEN-IGEVはGREAT-IGEVより19.2%高速で、ミドルベリーでの高分解能(3K)推論をサポートし、距離は768までである。
関連論文リスト
- R-PGA: Robust Physical Adversarial Camouflage Generation via Relightable 3D Gaussian Splatting [59.29134814041703]
物理的敵対的なカモフラージュは、自律運転システムに深刻なセキュリティ上の脅威をもたらす。
現在の手法は、様々な幾何学的(例えば、視線構成)とラジオメトリックのバリエーションにまたがる一般化に失敗する。
Relightable Physical 3D Gaussian Splatting framework (R-PGA)を提案する。
論文 参考訳(メタデータ) (2026-03-27T04:38:04Z) - 3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification [80.43401018217367]
3D Gaussian Splatting (3DGS) は新規なビュー合成と3Dシーン再構成において顕著な性能を示した。
その品質は、移動物体や様々な影など、過渡的な気晴らしによって、現実世界の環境において劣化することが多い。
既存の方法は、事前訓練された視覚モデルから抽出されたセマンティックな手がかりに頼り、これらの障害を識別し、抑制する。
本稿では,2つの相補的原理を組み合わせることで,これらの制約を回避するフレームワークである3DGS-HPCを提案する。
論文 参考訳(メタデータ) (2026-03-08T11:16:30Z) - ERGO: Excess-Risk-Guided Optimization for High-Fidelity Monocular 3D Gaussian Splatting [63.138778159026934]
本稿では,ERGOと呼ばれる過度のリスク分解によって導かれる適応最適化フレームワークを提案する。
ERGOはビュー固有の過剰リスクを動的に推定し、最適化中の損失重みを適応的に調整する。
Google Scanned ObjectsデータセットとOmniObject3Dデータセットの実験は、既存の最先端メソッドよりもERGOの方が優れていることを示している。
論文 参考訳(メタデータ) (2026-02-10T20:44:43Z) - STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction [18.777422532112105]
既存の3次元ガウス散乱に基づく手法は、通常、ガウス多様体を線形ブレンドスキニングのみを通してメッシュ三角形とモデル変形に結合する。
本研究では,(1)UV空間内のガウス特徴オフセットを学習するために,画像ベースと幾何学的先行情報の両方を活用するUV-Temporal Soft BindingフレームワークであるSTAvatarを提案する。
STAvatarは、特に細かな細部を捉え、しばしば閉鎖された領域を再構築する際に、最先端の再構築性能を達成する。
論文 参考訳(メタデータ) (2025-11-25T02:35:00Z) - HBSplat: Robust Sparse-View Gaussian Reconstruction with Hybrid-Loss Guided Depth and Bidirectional Warping [11.035994094874141]
HBSplatは、堅牢な構造的キュー、仮想ビュー制約、隠蔽された領域補完をシームレスに統合するフレームワークである。
HBSplatは21.13dBのPSNRと0.189LPIPSを達成し、リアルタイム推論を維持している。
論文 参考訳(メタデータ) (2025-09-29T15:03:31Z) - MCGS: Multiview Consistency Enhancement for Sparse-View 3D Gaussian Radiance Fields [100.90743697473232]
3Dガウシアンによって表現される放射場は、高いトレーニング効率と高速レンダリングの両方を提供する、新しいビューの合成に優れている。
既存の手法では、高密度推定ネットワークからの奥行き先を組み込むことが多いが、入力画像に固有の多視点一貫性を見落としている。
スパースビューからのシーン再構成が可能な3次元ガウススプラッティングに基づくビュー合成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:39:05Z) - GS-IR: 3D Gaussian Splatting for Inverse Rendering [71.14234327414086]
3次元ガウス散乱(GS)に基づく新しい逆レンダリング手法GS-IRを提案する。
我々は、未知の照明条件下で撮影された多視点画像からシーン形状、表面物質、環境照明を推定するために、新しいビュー合成のための最高のパフォーマンス表現であるGSを拡張した。
フレキシブルかつ表現力のあるGS表現は、高速かつコンパクトな幾何再構成、フォトリアリスティックな新規ビュー合成、有効物理ベースレンダリングを実現する。
論文 参考訳(メタデータ) (2023-11-26T02:35:09Z) - Hyperspectral Image Super-resolution via Deep Progressive Zero-centric
Residual Learning [62.52242684874278]
空間情報とスペクトル情報の相互モダリティ分布が問題となる。
本稿では,PZRes-Netという,新しいテクスライトウェイトなディープニューラルネットワークベースのフレームワークを提案する。
本フレームワークは,高分解能かつテクテッセロ中心の残像を学習し,シーンの空間的詳細を高頻度で表現する。
論文 参考訳(メタデータ) (2020-06-18T06:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。