論文の概要: DMS:Diffusion-Based Multi-Baseline Stereo Generation for Improving Self-Supervised Depth Estimation
- arxiv url: http://arxiv.org/abs/2508.13091v1
- Date: Mon, 18 Aug 2025 17:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.496697
- Title: DMS:Diffusion-Based Multi-Baseline Stereo Generation for Improving Self-Supervised Depth Estimation
- Title(参考訳): DMS:拡散型マルチベースラインステレオ生成による自己監督深度推定の改善
- Authors: Zihua Liu, Yizhou Li, Songyan Zhang, Masatoshi Okutomi,
- Abstract要約: 本稿では,方向指示によって誘導される極上方向に沿った新しいビューを合成するモデルに依存しないアプローチを提案する。
提案したDMSは,自己教師型ステレオマッチングと単眼深度推定をシームレスに向上する,コストフリーの'plug-and-play'法である。
- 参考スコア(独自算出の注目度): 10.461837853869959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While supervised stereo matching and monocular depth estimation have advanced significantly with learning-based algorithms, self-supervised methods using stereo images as supervision signals have received relatively less focus and require further investigation. A primary challenge arises from ambiguity introduced during photometric reconstruction, particularly due to missing corresponding pixels in ill-posed regions of the target view, such as occlusions and out-of-frame areas. To address this and establish explicit photometric correspondences, we propose DMS, a model-agnostic approach that utilizes geometric priors from diffusion models to synthesize novel views along the epipolar direction, guided by directional prompts. Specifically, we finetune a Stable Diffusion model to simulate perspectives at key positions: left-left view shifted from the left camera, right-right view shifted from the right camera, along with an additional novel view between the left and right cameras. These synthesized views supplement occluded pixels, enabling explicit photometric reconstruction. Our proposed DMS is a cost-free, ''plug-and-play'' method that seamlessly enhances self-supervised stereo matching and monocular depth estimation, and relies solely on unlabeled stereo image pairs for both training and synthesizing. Extensive experiments demonstrate the effectiveness of our approach, with up to 35% outlier reduction and state-of-the-art performance across multiple benchmark datasets.
- Abstract(参考訳): ステレオマッチングと単眼深度推定は学習に基づくアルゴリズムで大幅に進歩してきたが、ステレオ画像を用いた自己教師手法は比較的焦点が小さく、さらなる調査が必要である。
主な課題は、光度再構成時に導入された曖昧さから生じ、特に、オクルージョンやフレーム外領域のような、対象視の異常な領域で対応するピクセルが欠落しているためである。
そこで本稿では,拡散モデルから幾何的先入観を生かし,方向のプロンプトで導かれる新奇な視点を合成するDMSを提案する。
具体的には、左カメラから左のビュー、右カメラから右のビュー、そして左カメラと右カメラの間の新たなビューを再現するために、安定拡散モデルを微調整する。
これらの合成ビューは、隠蔽されたピクセルを補完し、明示的な光度再構成を可能にする。
提案するDMSは,自己教師型ステレオマッチングと単眼深度推定をシームレスに向上する,コストフリーの「プラグアンドプレイ」手法である。
大規模な実験は、複数のベンチマークデータセットで最大35%のアウトレイラ削減と最先端のパフォーマンスで、我々のアプローチの有効性を実証している。
関連論文リスト
- Boosting Omnidirectional Stereo Matching with a Pre-trained Depth Foundation Model [62.37493746544967]
カメラベースの設定は、立体深度推定を用いて高解像度の高解像度深度マップを生成することで、コスト効率のよい選択肢を提供する。
既存の全方位ステレオマッチング手法は、様々な環境において限られた深度精度しか達成できない。
DFI-OmniStereoは, 大規模事前学習基礎モデルを用いて, 相対的な単眼深度推定を行う新しい全方位ステレオマッチング法である。
論文 参考訳(メタデータ) (2025-03-30T16:24:22Z) - MODEL&CO: Exoplanet detection in angular differential imaging by learning across multiple observations [37.845442465099396]
ほとんどの後処理法は、対象の観測自体から核分裂のモデルを構築している。
本稿では,教師付き深層学習技術を利用して,複数観測のアーカイブからニュアンスモデルを構築することを提案する。
本稿では,提案手法をVLT/SPHERE機器から得られた複数のデータセットに適用し,高精度なリコールトレードオフを示す。
論文 参考訳(メタデータ) (2024-09-23T09:22:45Z) - RNb-NeuS: Reflectance and Normal-based Multi-View 3D Reconstruction [3.1820300989695833]
本稿では,光度ステレオにより得られる多視点反射率と正規写像を統合するための多目的パラダイムを提案する。
提案手法では, 反射率と正規度の画素ワイドな共同パラメータ化を, 放射光のベクトルとして用いた。
これは、高い曲率または低い視認性を持つ領域の詳細な3D再構成を大幅に改善する。
論文 参考訳(メタデータ) (2023-12-02T19:49:27Z) - ChiTransformer:Towards Reliable Stereo from Cues [10.756828396434033]
現在のステレオマッチング技術は、制限された探索空間、隠蔽領域、およびせん断サイズによって挑戦される。
本稿では,光学機構にインスパイアされた自己監督型両眼深度推定法を提案する。
ChiTransformerアーキテクチャは、最先端の自己教師型ステレオアプローチよりも11%大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-09T07:19:58Z) - Neural Radiance Fields Approach to Deep Multi-View Photometric Stereo [103.08512487830669]
多視点測光ステレオ問題(MVPS)に対する現代的な解法を提案する。
我々は、光度ステレオ(PS)画像形成モデルを用いて表面配向を取得し、それを多視点のニューラルラディアンス場表現とブレンドして物体の表面形状を復元する。
本手法は,多視点画像のニューラルレンダリングを行い,深部光度ステレオネットワークによって推定される表面の正規性を活用している。
論文 参考訳(メタデータ) (2021-10-11T20:20:03Z) - Single-shot Hyperspectral-Depth Imaging with Learned Diffractive Optics [72.9038524082252]
単発単眼単眼ハイパースペクトル(HS-D)イメージング法を提案する。
本手法では, 回折光学素子 (DOE) を用いる。
DOE の学習を容易にするため,ベンチトップ HS-D イメージラーを構築することで,最初の HS-D データセットを提案する。
論文 参考訳(メタデータ) (2020-09-01T14:19:35Z) - D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual
Odometry [57.5549733585324]
D3VOは、深度、ポーズ、不確実性推定という3つのレベルでディープネットワークを利用する、単眼の視覚計測のための新しいフレームワークである。
まず,ステレオビデオを用いた自己監督型単眼深度推定ネットワークを提案する。
入力画像上の画素の光度不確かさをモデル化し、深度推定精度を向上させる。
論文 参考訳(メタデータ) (2020-03-02T17:47:13Z) - Multi-View Photometric Stereo: A Robust Solution and Benchmark Dataset
for Spatially Varying Isotropic Materials [65.95928593628128]
多視点光度ステレオ技術を用いて3次元形状と空間的に異なる反射率の両方をキャプチャする手法を提案する。
我々のアルゴリズムは、遠近点光源と遠近点光源に適している。
論文 参考訳(メタデータ) (2020-01-18T12:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。