論文の概要: InSpaceType: Dataset and Benchmark for Reconsidering Cross-Space Type Performance in Indoor Monocular Depth
- arxiv url: http://arxiv.org/abs/2408.13708v1
- Date: Sun, 25 Aug 2024 02:39:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:19:53.037182
- Title: InSpaceType: Dataset and Benchmark for Reconsidering Cross-Space Type Performance in Indoor Monocular Depth
- Title(参考訳): InSpaceType: 屋内モノクロ深度におけるクロススペース型パフォーマンスの再検討のためのデータセットとベンチマーク
- Authors: Cho-Ying Wu, Quankai Gao, Chin-Cheng Hsu, Te-Lin Wu, Jing-Wen Chen, Ulrich Neumann,
- Abstract要約: 屋内の単眼深度推定は、ロボットナビゲーションや周囲の知覚のためのAR/VRを含むホームオートメーションに役立つ。
研究者は、カスタムデータまたはより頻度の低いタイプで、リリース済みの事前トレーニングモデルで、劣化したパフォーマンスを経験的に見つけることができる。
本稿では,よく見られるが見落としやすい因子空間のタイプについて検討し,空間間のモデルの性能差を実現する。
- 参考スコア(独自算出の注目度): 21.034022456528938
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Indoor monocular depth estimation helps home automation, including robot navigation or AR/VR for surrounding perception. Most previous methods primarily experiment with the NYUv2 Dataset and concentrate on the overall performance in their evaluation. However, their robustness and generalization to diversely unseen types or categories for indoor spaces (spaces types) have yet to be discovered. Researchers may empirically find degraded performance in a released pretrained model on custom data or less-frequent types. This paper studies the common but easily overlooked factor-space type and realizes a model's performance variances across spaces. We present InSpaceType Dataset, a high-quality RGBD dataset for general indoor scenes, and benchmark 13 recent state-of-the-art methods on InSpaceType. Our examination shows that most of them suffer from performance imbalance between head and tailed types, and some top methods are even more severe. The work reveals and analyzes underlying bias in detail for transparency and robustness. We extend the analysis to a total of 4 datasets and discuss the best practice in synthetic data curation for training indoor monocular depth. Further, dataset ablation is conducted to find out the key factor in generalization. This work marks the first in-depth investigation of performance variances across space types and, more importantly, releases useful tools, including datasets and codes, to closely examine your pretrained depth models. Data and code: https://depthcomputation.github.io/DepthPublic/
- Abstract(参考訳): 屋内の単眼深度推定は、ロボットナビゲーションや周囲の知覚のためのAR/VRを含むホームオートメーションに役立つ。
これまでのほとんどの手法は、主にNYUv2データセットで実験し、評価における全体的なパフォーマンスに集中していた。
しかし、室内空間(空間型)の様々な見当たらないタイプやカテゴリへの頑健さと一般化はまだ発見されていない。
研究者は、カスタムデータまたはより頻度の低いタイプで、リリース済みの事前トレーニングモデルで、劣化したパフォーマンスを経験的に見つけることができる。
本稿では,よく見られるが見落としやすい因子空間のタイプについて検討し,空間間のモデルの性能差を実現する。
InSpaceType Datasetは,屋内シーンを対象とした高品質なRGBDデータセットである。
以上の結果から, 頭部と尾翼の動作不均衡に悩まされている症例が多く, 上顎の方法がさらに重篤であることが明らかとなった。
この研究は、透明性と堅牢性を詳細に明らかにし、分析する。
分析結果を合計4つのデータセットに拡張し、室内単分子深度をトレーニングするための合成データキュレーションのベストプラクティスについて議論する。
さらに、データセットのアブレーションを行い、一般化の鍵となる要素を見つけ出す。
この研究は、空間タイプ間のパフォーマンスのばらつきに関する、初めての詳細な調査であり、さらに重要なのは、事前訓練された深度モデルを調べるために、データセットやコードを含む有用なツールをリリースすることです。
データとコード:https://depthcomputation.github.io/DepthPublic/
関連論文リスト
- OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - InSpaceType: Reconsider Space Type in Indoor Monocular Depth Estimation [22.287982980942235]
InSpaceTypeで12のメソッドをベンチマークし、スペースタイプに関するパフォーマンスの不均衡に苦しむことを発見した。
分析を他の4つのデータセットに拡張し、3つの緩和アプローチと、目に見えない空間タイプに一般化する能力を提供します。
論文 参考訳(メタデータ) (2023-09-24T00:39:41Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D [71.11034329713058]
既存のデータセットには、大規模で高品質な3D地上真実情報がない。
Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。
我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
論文 参考訳(メタデータ) (2020-12-03T01:51:56Z) - The classification for High-dimension low-sample size data [3.411873646414169]
本稿では,クラス分離可能性の前提として,クラス内分散の類似性を強調する,HDLSSの新たな分類基準を提案する。
この基準により、非分離データ分散最大値 (NPDMD) で表される新しい線形二分分類器が設計される。
NPDMDは最先端の分類法と比較していくつかの特徴がある。
論文 参考訳(メタデータ) (2020-06-21T07:04:16Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z) - Active Learning over DNN: Automated Engineering Design Optimization for
Fluid Dynamics Based on Self-Simulated Dataset [4.4074213830420055]
本研究は,様々な制約下での性能を予測するために,テストによるディープラーニングアーキテクチャを適用した。
最大の課題は、Deep Neural Network(DNN)の要求する膨大なデータポイントである。
最終段階であるユーザインタフェースは、最小領域と粘度を与えられたユーザ入力で最適化できるモデルを作った。
論文 参考訳(メタデータ) (2020-01-18T07:35:00Z) - SVIRO: Synthetic Vehicle Interior Rear Seat Occupancy Dataset and
Benchmark [11.101588888002045]
SVIROは10台の異なる車両の旅客室におけるシーンの合成データセットである。
限られたバリエーションに基づいて学習した際の一般化能力と信頼性について、機械学習に基づくアプローチを解析する。
論文 参考訳(メタデータ) (2020-01-10T14:44:23Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。