論文の概要: Multi-Label Stereo Matching for Transparent Scene Depth Estimation
- arxiv url: http://arxiv.org/abs/2505.14008v1
- Date: Tue, 20 May 2025 07:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.843256
- Title: Multi-Label Stereo Matching for Transparent Scene Depth Estimation
- Title(参考訳): 透過的深度推定のためのマルチラベルステレオマッチング
- Authors: Zhidan Liu, Chengtang Yao, Jiaxi Zeng, Yuwei Wu, Yunde Jia,
- Abstract要約: 透明なシーンにおける透明な物体と隠蔽された背景の深さを同時に推定するマルチラベルステレオマッチング法を提案する。
また、10のシーンと89のオブジェクトを含むデータセットを合成し、透過的なシーン深さ推定の性能を検証する。
- 参考スコア(独自算出の注目度): 26.871684446738975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a multi-label stereo matching method to simultaneously estimate the depth of the transparent objects and the occluded background in transparent scenes.Unlike previous methods that assume a unimodal distribution along the disparity dimension and formulate the matching as a single-label regression problem, we propose a multi-label regression formulation to estimate multiple depth values at the same pixel in transparent scenes. To resolve the multi-label regression problem, we introduce a pixel-wise multivariate Gaussian representation, where the mean vector encodes multiple depth values at the same pixel, and the covariance matrix determines whether a multi-label representation is necessary for a given pixel. The representation is iteratively predicted within a GRU framework. In each iteration, we first predict the update step for the mean parameters and then use both the update step and the updated mean parameters to estimate the covariance matrix. We also synthesize a dataset containing 10 scenes and 89 objects to validate the performance of transparent scene depth estimation. The experiments show that our method greatly improves the performance on transparent surfaces while preserving the background information for scene reconstruction. Code is available at https://github.com/BFZD233/TranScene.
- Abstract(参考訳): 本稿では、透明なシーンにおける透明な物体と隠蔽された背景の深さを同時に推定するマルチラベルステレオマッチング法を提案する。従来の方法では、不均一次元に沿って一様分布を仮定し、マッチングを単一ラベル回帰問題として定式化するのとは異なり、透過的なシーンにおける同一画素における多重深度値を推定するマルチラベル回帰定式化を提案する。
多重ラベル回帰問題を解くために、平均ベクトルが同じ画素で多重深さ値を符号化する画素ワイド多変量ガウス表現を導入し、共分散行列が与えられた画素に対して多重ラベル表現が必要であるかどうかを判定する。
この表現は、GRUフレームワーク内で反復的に予測される。
各イテレーションにおいて、まず平均パラメータの更新ステップを予測し、次に更新ステップと更新平均パラメータの両方を使用して共分散行列を推定する。
また、10のシーンと89のオブジェクトを含むデータセットを合成し、透過的なシーン深さ推定の性能を検証する。
実験により,シーン復元のための背景情報を保存しながら,透明表面の性能を大幅に向上することを確認した。
コードはhttps://github.com/BFZD233/TranSceneで入手できる。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - MultiDepth: Multi-Sample Priors for Refining Monocular Metric Depth Estimations in Indoor Scenes [0.0]
既存のモデルは、シーン内のオブジェクトの境界周波数やシーンの複雑さといった要因に敏感である。
本稿では,事前学習したMMDEモデルを用いて,画像のサンプルと初期深度マップ予測を併用した解を提案する。
既存の反復深度補正技術と比較して、MultiDepthはアーキテクチャの一部として通常の地図予測を採用していない。
論文 参考訳(メタデータ) (2024-11-01T21:30:51Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Semi-supervised Counting via Pixel-by-pixel Density Distribution
Modelling [135.66138766927716]
本稿では,トレーニングデータのごく一部をラベル付けした半教師付き群集カウントに着目した。
我々は1つの決定論的値ではなく、確率分布として回帰するためにピクセル単位の密度値を定式化する。
本手法は,様々なラベル付き比率設定の下で,競争相手よりも明らかに優れる。
論文 参考訳(メタデータ) (2024-02-23T12:48:02Z) - Multi-modal Large Language Model Enhanced Pseudo 3D Perception Framework
for Visual Commonsense Reasoning [24.29849761674329]
代表作は、まず画像中のオブジェクトを認識し、それからテキスト中のキーワードと関連付ける。
MLLM拡張擬似3次元認識フレームワークは、視覚的コモンセンス推論のために設計されている。
VCRデータセットの実験は、最先端のアプローチよりも提案されたフレームワークの方が優れていることを示している。
論文 参考訳(メタデータ) (2023-01-30T23:43:28Z) - VoGE: A Differentiable Volume Renderer using Gaussian Ellipsoids for
Analysis-by-Synthesis [62.47221232706105]
本稿では,ガウス再構成カーネルをボリュームプリミティブとして利用するVoGEを提案する。
本稿では,VoGEを用いて効率よくレンダリングを行うために,体積密度集約と粗大な描画戦略に関する近似クローズフォーム解を提案する。
VoGEは、オブジェクトポーズ推定、形状/テクスチャフィッティング、推論など、様々な視覚タスクに適用された場合、SoTAより優れている。
論文 参考訳(メタデータ) (2022-05-30T19:52:11Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Autoregressive Unsupervised Image Segmentation [8.894935073145252]
入力から構築した異なるビュー間の相互情報に基づく教師なし画像分割手法を提案する。
提案手法は、教師なし画像セグメント化における最先端技術よりも優れている。
論文 参考訳(メタデータ) (2020-07-16T10:47:40Z) - Multi-Granularity Canonical Appearance Pooling for Remote Sensing Scene
Classification [0.34376560669160383]
リモートセンシングデータセットの潜在存在論的構造を自動的に捉えるために,新しいMG-CAP(Multi-Granularity Canonical Appearance Pooling)を提案する。
それぞれの特定の粒度に対して,事前定義された変換の集合から標準的外観を発見し,最大化に基づくシームズスタイルアーキテクチャを用いて対応するCNN特徴を学習する。
本稿では,GPUの固有値分解関数(EIG)を学習し,行列計算によるバックプロパゲーションを実証する安定解を提案する。
論文 参考訳(メタデータ) (2020-04-09T11:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。