論文の概要: InSpaceType: Reconsider Space Type in Indoor Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2309.13516v1
- Date: Sun, 24 Sep 2023 00:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 19:25:44.821523
- Title: InSpaceType: Reconsider Space Type in Indoor Monocular Depth Estimation
- Title(参考訳): InSpaceType:屋内単眼深度推定における再考型空間型
- Authors: Cho-Ying Wu, Quankai Gao, Chin-Cheng Hsu, Te-Lin Wu, Jing-Wen Chen,
Ulrich Neumann
- Abstract要約: InSpaceTypeの最近の11の手法をベンチマークし、それらが空間タイプに関するパフォーマンスの不均衡に苦しむことを発見した。
分析を他の4つのデータセットに拡張し、3つの緩和アプローチと、目に見えない空間タイプに一般化する能力を提供します。
- 参考スコア(独自算出の注目度): 22.287982980942235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indoor monocular depth estimation has attracted increasing research interest.
Most previous works have been focusing on methodology, primarily experimenting
with NYU-Depth-V2 (NYUv2) Dataset, and only concentrated on the overall
performance over the test set. However, little is known regarding robustness
and generalization when it comes to applying monocular depth estimation methods
to real-world scenarios where highly varying and diverse functional
\textit{space types} are present such as library or kitchen. A study for
performance breakdown into space types is essential to realize a pretrained
model's performance variance. To facilitate our investigation for robustness
and address limitations of previous works, we collect InSpaceType, a
high-quality and high-resolution RGBD dataset for general indoor environments.
We benchmark 11 recent methods on InSpaceType and find they severely suffer
from performance imbalance concerning space types, which reveals their
underlying bias. We extend our analysis to 4 other datasets, 3 mitigation
approaches, and the ability to generalize to unseen space types. Our work marks
the first in-depth investigation of performance imbalance across space types
for indoor monocular depth estimation, drawing attention to potential safety
concerns for model deployment without considering space types, and further
shedding light on potential ways to improve robustness. See
\url{https://depthcomputation.github.io/DepthPublic} for data.
- Abstract(参考訳): 屋内の単眼深度推定は研究の関心を集めている。
これまでのほとんどの研究は方法論に重点を置いており、主にNYU-Depth-V2(NYUv2)データセットを実験し、テストセット全体のパフォーマンスにのみ集中していた。
しかし、ライブラリやキッチンのような非常に多様で多彩な関数型 \textit{space types} が存在する実世界のシナリオに単眼的深さ推定法を適用する場合、堅牢性や一般化についてはほとんど知られていない。
事前学習したモデルの性能ばらつきを実現するためには,空間型の性能破壊に関する研究が不可欠である。
従来の作業の堅牢性や限界への対処を容易にするため,一般屋内環境のための高品質かつ高解像度なRGBDデータセットInSpaceTypeを収集した。
我々は、inspacetypeに関する11の最近の手法をベンチマークし、空間タイプに関するパフォーマンスの不均衡に苦しむことを発見した。
分析は、他の4つのデータセット、3つの緩和アプローチ、未発見の空間型に一般化する能力に拡張します。
本研究は,室内単眼深度推定における空間タイプ間の性能不均衡を初めて詳細に検討し,空間タイプを考慮せずにモデル展開の安全性を懸念し,さらにロバスト性を改善する可能性に光を当てるものである。
データについては \url{https://depthcomputation.github.io/depthpublic} を参照。
関連論文リスト
- OPUS: Occupancy Prediction Using a Sparse Set [64.60854562502523]
学習可能なクエリの集合を用いて、占有された場所とクラスを同時に予測するフレームワークを提案する。
OPUSには、モデルパフォーマンスを高めるための非自明な戦略が組み込まれている。
最も軽量なモデルではOcc3D-nuScenesデータセットの2倍 FPS に優れたRayIoUが得られる一方、最も重いモデルは6.1 RayIoUを上回ります。
論文 参考訳(メタデータ) (2024-09-14T07:44:22Z) - InSpaceType: Dataset and Benchmark for Reconsidering Cross-Space Type Performance in Indoor Monocular Depth [21.034022456528938]
屋内の単眼深度推定は、ロボットナビゲーションや周囲の知覚のためのAR/VRを含むホームオートメーションに役立つ。
研究者は、カスタムデータまたはより頻度の低いタイプで、リリース済みの事前トレーニングモデルで、劣化したパフォーマンスを経験的に見つけることができる。
本稿では,よく見られるが見落としやすい因子空間のタイプについて検討し,空間間のモデルの性能差を実現する。
論文 参考訳(メタデータ) (2024-08-25T02:39:55Z) - Monocular Occupancy Prediction for Scalable Indoor Scenes [56.686307396496545]
そこで本研究では,モノクロ画像を用いた屋内シーン占有率の予測手法であるISOを提案する。
ISOは、事前訓練された深度モデルの利点を利用して正確な深度予測を行う。
Occ-ScanNetは屋内シーンの大規模占有ベンチマークである。
論文 参考訳(メタデータ) (2024-07-16T13:50:40Z) - Find n' Propagate: Open-Vocabulary 3D Object Detection in Urban Environments [67.83787474506073]
我々は,現在のLiDARに基づく3Dオブジェクト検出システムの限界に対処する。
本稿では,3次元OVタスクに対する汎用textscFind n' Propagate アプローチを提案する。
我々は、新しいオブジェクトクラスに対する平均精度(AP)を最大3.97倍に向上させる。
論文 参考訳(メタデータ) (2024-03-20T12:51:30Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Revisiting Deformable Convolution for Depth Completion [40.45231083385708]
深度完備化は、スパース深度マップから高品質の高密度深度マップを作成することを目的としている。
従来の作業では、通常、RGBイメージをガイダンスとして使用し、推定された粗い深度マップを洗練するための反復的な空間伝播を導入している。
変形可能なカーネルの畳み込みを単一パスリファインメントモジュールとして活用する,効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-03T17:59:06Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - SuctionNet-1Billion: A Large-Scale Benchmark for Suction Grasping [47.221326169627666]
吸引つかみのシール形成とレンチ抵抗を解析的に評価する新しい物理モデルを提案する。
現実世界の混乱したシナリオで収集された大規模データセットにアノテーションを生成するために、2段階の手法が採用されている。
連続運転空間における吸入ポーズを評価するための標準オンライン評価システムを提案する。
論文 参考訳(メタデータ) (2021-03-23T05:02:52Z) - Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral
Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction [48.73525876467408]
本稿では,超スペクトル部分空間解析のための新しい手法を提案する。
この手法はジョイント・アンド・プログレッシブ・サブスペース分析(JPSA)と呼ばれる。
2つの広帯域超スペクトルデータセットに対して提案したJPSAの優位性と有効性を示す実験を行った。
論文 参考訳(メタデータ) (2020-09-21T16:29:59Z) - Improving Monocular Depth Estimation by Leveraging Structural Awareness
and Complementary Datasets [21.703238902823937]
視覚特徴の空間的関係を利用するために,空間的注意ブロックを有する構造認識ニューラルネットワークを提案する。
第2に,一様点対に対する大域的局所的相対損失を導入し,予測における空間的制約を増大させる。
第3に、先行手法の障害事例の分析に基づいて、挑戦シーンの新たなHard Case (HC) Depthデータセットを収集します。
論文 参考訳(メタデータ) (2020-07-22T08:21:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。