論文の概要: Impact of Pseudo Depth on Open World Object Segmentation with Minimal
User Guidance
- arxiv url: http://arxiv.org/abs/2304.05716v1
- Date: Wed, 12 Apr 2023 09:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 15:40:58.621909
- Title: Impact of Pseudo Depth on Open World Object Segmentation with Minimal
User Guidance
- Title(参考訳): 擬似深さが最小ユーザ誘導によるオープンワールドオブジェクトセグメンテーションに及ぼす影響
- Authors: Robin Sch\"on, Katja Ludwig, Rainer Lienhart
- Abstract要約: 擬似深度マップ(Pseudo depth map)は、訓練中に地上の真理として使用される深度マップの述語である。
本稿では,学習中に見たことのないクラスのオブジェクトを分割するために,擬似深度マップを利用する。
- 参考スコア(独自算出の注目度): 18.176606453818557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pseudo depth maps are depth map predicitions which are used as ground truth
during training. In this paper we leverage pseudo depth maps in order to
segment objects of classes that have never been seen during training. This
renders our object segmentation task an open world task. The pseudo depth maps
are generated using pretrained networks, which have either been trained with
the full intention to generalize to downstream tasks (LeRes and MiDaS), or
which have been trained in an unsupervised fashion on video sequences
(MonodepthV2). In order to tell our network which object to segment, we provide
the network with a single click on the object's surface on the pseudo depth map
of the image as input. We test our approach on two different scenarios: One
without the RGB image and one where the RGB image is part of the input. Our
results demonstrate a considerably better generalization performance from seen
to unseen object types when depth is used. On the Semantic Boundaries Dataset
we achieve an improvement from $61.57$ to $69.79$ IoU score on unseen classes,
when only using half of the training classes during training and performing the
segmentation on depth maps only.
- Abstract(参考訳): 擬似深度マップ(Pseudo depth map)は、訓練中に真理として使用される深度マップの述語である。
本稿では,トレーニング中に見たことのないクラスのオブジェクトをセグメンテーションするために,擬似深度マップを利用する。
これにより、オブジェクトセグメンテーションタスクがオープンワールドタスクになります。
擬似深度マップは、ダウンストリームタスク(lereとmida)に一般化する完全な意図で訓練されたか、ビデオシーケンス上で教師なしの方法で訓練された(monodepthv2)事前訓練されたネットワークを使って生成される。
どのオブジェクトをセグメントするかをネットワークに伝えるために、画像の擬似深度マップを入力として、ネットワークにオブジェクトの表面をワンクリックで提供します。
我々はRGB画像のないシナリオとRGB画像が入力の一部であるシナリオの2つについてアプローチを検証した。
以上の結果から,被写界深度を用いた場合,被写界型から被写界型まで,かなり優れた一般化性能を示す。
Semantic境界データセットでは、トレーニング中にトレーニングクラスの半分しか使用せず、深度マップのみのセグメンテーションを実行する場合、目に見えないクラスのIoUスコアが61.57$から69.79$に改善されます。
関連論文リスト
- Background Prompting for Improved Object Depth [70.25467510077706]
単一の画像からオブジェクトの深さを推定することは、多くのビジョン、ロボティクス、グラフィックアプリケーションにとって貴重なタスクである。
本稿では,入力対象画像を学習背景に適応させる,シンプルで効果的なバックグラウンドプロンプティング手法を提案する。
複数の合成および実データセットの結果は、既存の様々な深度ネットワークに対して、実際の物体深度を一貫した改善を示す。
論文 参考訳(メタデータ) (2023-06-08T17:59:59Z) - Source-free Depth for Object Pop-out [113.24407776545652]
現代の学習に基づく手法は、野生での推論による有望な深度マップを提供する。
本研究では,オブジェクトの3次元前の「ポップアウト」を用いて,オブジェクトセグメンテーションの深度推定モデルを適用する。
8つのデータセットに対する我々の実験は、性能と一般化性の両方の観点から、我々の方法の利点を一貫して示している。
論文 参考訳(メタデータ) (2022-12-10T21:57:11Z) - Depth Is All You Need for Monocular 3D Detection [29.403235118234747]
教師なしの方法で対象領域に深度表現を合わせることを提案する。
本手法では, トレーニング時間中に利用可能なLiDARやRGBビデオを利用して深度表現を微調整し, 改良された3D検出器を実現する。
論文 参考訳(メタデータ) (2022-10-05T18:12:30Z) - Learning to segment from object sizes [0.0]
本稿では,数画素の注釈付き画像と既知のオブジェクトサイズを持つ多数の画像のデータセットから,ディープセグメンテーションネットワークをトレーニングするアルゴリズムを提案する。
このアルゴリズムは、勾配をサンプリングし、標準のバックプロパゲーションアルゴリズムを使用することで、オブジェクトサイズに対して定義された離散的な(微分不可能な)損失関数を最小化する。
論文 参考訳(メタデータ) (2022-07-01T09:34:44Z) - Least Square Estimation Network for Depth Completion [11.840223815711004]
本稿では,深度完了タスクのための効率的な画像表現法を提案する。
システムの入力は単眼カメラフレームと同期スパース深度マップである。
実験の結果は、NYU-Depth-V2データセットの精度と実行時間の両方で、最先端のデータセットを上回ったことを示している。
論文 参考訳(メタデータ) (2022-03-07T11:52:57Z) - Learning To Segment Dominant Object Motion From Watching Videos [72.57852930273256]
我々は,有意な移動物体セグメンテーションのための単純なフレームワークを構想する。このフレームワークは,有意なデータを必要としないし,有意な前処理や事前学習された光フローマップに依存しない。
層状画像表現に着想を得て,アフィンパラメトリックの動きに応じて画素領域をグループ化する手法を提案する。
これにより、トレーニングと推論の両方の入力として、RGBイメージペアのみを使用して、支配的なフォアグラウンドオブジェクトのセグメンテーションを学習することができる。
論文 参考訳(メタデータ) (2021-11-28T14:51:00Z) - DnD: Dense Depth Estimation in Crowded Dynamic Indoor Scenes [68.38952377590499]
複雑な屋内環境の中を移動する単眼カメラから奥行きを推定するための新しい手法を提案する。
提案手法は,静的な背景と複数の移動する人物からなるシーン全体にわたる絶対規模の深度マップを推定する。
論文 参考訳(メタデータ) (2021-08-12T09:12:39Z) - SGTBN: Generating Dense Depth Maps from Single-Line LiDAR [13.58227120045849]
現在の深度補完法は、非常に高価な64ラインのLiDARを用いてスパース深度マップを得る。
64ラインのLiDARと比較すると、シングルラインのLiDARはずっと安く、より堅牢である。
既存の64行の深度補完データセットに基づいて, 単行深度補完データセットを提案する。
論文 参考訳(メタデータ) (2021-06-24T13:08:35Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。