論文の概要: CCNeXt: An Effective Self-Supervised Stereo Depth Estimation Approach
- arxiv url: http://arxiv.org/abs/2509.22627v1
- Date: Fri, 26 Sep 2025 17:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.627267
- Title: CCNeXt: An Effective Self-Supervised Stereo Depth Estimation Approach
- Title(参考訳): CCNeXt: 自己監督型ステレオ深さ推定手法
- Authors: Alexandre Lopes, Roberto Souza, Helio Pedrini,
- Abstract要約: 深度推定のための自己教師型畳み込み手法を提案する。
提案したCCNeXtアーキテクチャは、エンコーダに新しいウィンドウ付きエピポーラ・クロスアテンションモジュールを備えた、最新のCNN特徴抽出器を採用している。
我々の実験は、CCNeXtが現在のベストモデルよりも10.18$times$の速度で競合指標を達成することを示した。
- 参考スコア(独自算出の注目度): 44.23836177312291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Depth Estimation plays a crucial role in recent applications in robotics, autonomous vehicles, and augmented reality. These scenarios commonly operate under constraints imposed by computational power. Stereo image pairs offer an effective solution for depth estimation since it only needs to estimate the disparity of pixels in image pairs to determine the depth in a known rectified system. Due to the difficulty in acquiring reliable ground-truth depth data across diverse scenarios, self-supervised techniques emerge as a solution, particularly when large unlabeled datasets are available. We propose a novel self-supervised convolutional approach that outperforms existing state-of-the-art Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) while balancing computational cost. The proposed CCNeXt architecture employs a modern CNN feature extractor with a novel windowed epipolar cross-attention module in the encoder, complemented by a comprehensive redesign of the depth estimation decoder. Our experiments demonstrate that CCNeXt achieves competitive metrics on the KITTI Eigen Split test data while being 10.18$\times$ faster than the current best model and achieves state-of-the-art results in all metrics in the KITTI Eigen Split Improved Ground Truth and Driving Stereo datasets when compared to recently proposed techniques. To ensure complete reproducibility, our project is accessible at \href{https://github.com/alelopes/CCNext}{\texttt{https://github.com/alelopes/CCNext}}.
- Abstract(参考訳): 深度推定は、ロボット工学、自動運転車、拡張現実における最近の応用において重要な役割を担っている。
これらのシナリオは一般に計算力によって課される制約の下で機能する。
ステレオ画像ペアは、既知の補正システムにおける深度を決定するために、画像ペア内の画素の差を見積もる必要があるため、効果的な深さ推定ソリューションを提供する。
さまざまなシナリオにわたる信頼性の高い地層深度データを取得するのが難しいため、特に大規模なラベルなしデータセットが利用可能であれば、自己管理技術がソリューションとして現れる。
本稿では,既存の最先端の畳み込みニューラルネットワーク (CNN) と視覚変換器 (ViT) より優れた計算コストのバランスをとる自己教師型畳み込みアプローチを提案する。
提案したCCNeXtアーキテクチャは、新しいウィンドウ付きエピポーラクロスアテンションモジュールをエンコーダに備えたCNN特徴抽出器を用いており、奥行き推定デコーダを包括的に再設計している。
我々の実験は、CCNeXtがKITTI Eigen Splitテストデータ上で10.18$\times$の速度で競合指標を達成し、最近提案された手法と比較して、KITTI Eigen Splitの改善された地上真実とドライビングステレオデータセットのすべての指標で最先端の結果を得ることを示した。
完全な再現性を確保するため、我々のプロジェクトは \href{https://github.com/alelopes/CCNext}{\textt{https://github.com/alelopes/CCNext}} でアクセスできる。
関連論文リスト
- FoundationStereo: Zero-Shot Stereo Matching [50.79202911274819]
FoundationStereoはステレオ深度推定の基礎モデルである。
まず,大規模(1Mステレオペア)合成学習データセットを構築した。
その後、スケーラビリティを高めるために、多数のネットワークアーキテクチャコンポーネントを設計します。
論文 参考訳(メタデータ) (2025-01-17T01:01:44Z) - URCDC-Depth: Uncertainty Rectified Cross-Distillation with CutFlip for
Monocular Depth Estimation [24.03121823263355]
本稿では,トランスフォーマーと畳み込みニューラルネットワーク(CNN)間の不確かさを補正し,統合された深度推定器を学習する。
具体的には、TransformerブランチとCNNブランチの深さ推定を擬似ラベルとして使い、互いに教え合う。
そこで本研究では,深度推定のための垂直画像位置とは別に,より有用な手がかりを活用できる,驚くほどシンプルで効果的なデータ拡張手法であるCutFlipを提案する。
論文 参考訳(メタデータ) (2023-02-16T08:53:08Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - PVStereo: Pyramid Voting Module for End-to-End Self-Supervised Stereo
Matching [14.603116313499648]
本稿では,ピラミッド投票モジュール(PVM)と,OptStereoと呼ばれる新しいDCNNアーキテクチャからなる,堅牢で効果的な自己監督型ステレオマッチング手法を提案する。
具体的には、OptStereoは最初にマルチスケールのコストボリュームを構築し、その後、繰り返し単位を採用し、高分解能で不一致推定を反復的に更新します。
hkust-driveデータセット(大規模な合成ステレオデータセット)を、異なる照明条件と気象条件下で研究目的で収集した。
論文 参考訳(メタデータ) (2021-03-12T05:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。