論文の概要: Believing is Seeing: Unobserved Object Detection using Generative Models
- arxiv url: http://arxiv.org/abs/2410.05869v2
- Date: Sun, 24 Nov 2024 23:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:16:26.554780
- Title: Believing is Seeing: Unobserved Object Detection using Generative Models
- Title(参考訳): 信じている:生成モデルを用いた未観測物体検出
- Authors: Subhransu S. Bhattacharjee, Dylan Campbell, Rahul Shome,
- Abstract要約: 本研究では,2次元・2.5次元・3次元観測対象検出の新しい課題を紹介する。
我々は,この課題に対処するために,最先端の事前学習型生成モデルを適用した。
直接観察されていない物体の存在を推測するために使用できることを示す。
- 参考スコア(独自算出の注目度): 17.883297093049787
- License:
- Abstract: Can objects that are not visible in an image -- but are in the vicinity of the camera -- be detected? This study introduces the novel tasks of 2D, 2.5D and 3D unobserved object detection for predicting the location of nearby objects that are occluded or lie outside the image frame. We adapt several state-of-the-art pre-trained generative models to address this task, including 2D and 3D diffusion models and vision-language models, and show that they can be used to infer the presence of objects that are not directly observed. To benchmark this task, we propose a suite of metrics that capture different aspects of performance. Our empirical evaluation on indoor scenes from the RealEstate10k and NYU Depth v2 datasets demonstrate results that motivate the use of generative models for the unobserved object detection task.
- Abstract(参考訳): 画像には見えないが、カメラの近くにある物体が検出できるのか?
本研究では、2D, 2.5Dおよび3D非観測対象検出の新たなタスクを紹介し, 画像フレームの外側に隠蔽されたり、横になっている物体の位置を予測する。
本研究では,2次元・3次元拡散モデルや視覚言語モデルなど,最先端の事前学習型生成モデルを適用し,直接観測されていない物体の存在を推測できることを示す。
このタスクをベンチマークするために、パフォーマンスの異なる側面をキャプチャする一連のメトリクスを提案する。
RealEstate10kとNYU Depth v2データセットによる屋内シーンの実証的評価は、観測されていない物体検出タスクに生成モデルを使用することを動機付ける結果を示している。
関連論文リスト
- Open Vocabulary Monocular 3D Object Detection [10.424711580213616]
RGB画像から3次元空間内の物体を検出しローカライズすることを目的とした新しい課題であるオープンボキャブラリモノクロ3Dオブジェクト検出の研究を開拓した。
オープンボキャブラリ2次元検出器を活用して2次元境界ボックスを3次元空間に持ち上げるクラス非依存的手法を提案する。
提案手法は,3次元境界ボックスを推定する作業から2次元の物体の認識と局所化を分離し,未知のカテゴリをまたいだ一般化を可能にする。
論文 参考訳(メタデータ) (2024-11-25T18:59:17Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Predict to Detect: Prediction-guided 3D Object Detection using
Sequential Images [15.51093009875854]
本稿では,予測スキームを検出フレームワークに統合した新しい3Dオブジェクト検出モデルP2Dを提案する。
P2Dは、過去のフレームのみを用いて現在のフレーム内のオブジェクト情報を予測し、時間的動きの特徴を学習する。
次に,予測対象情報に基づいて,バードアイビュー(Bird's-Eye-View,BEV)特徴を注意深く活用する時間的特徴集約手法を提案する。
論文 参考訳(メタデータ) (2023-06-14T14:22:56Z) - DR-WLC: Dimensionality Reduction cognition for object detection and pose
estimation by Watching, Learning and Checking [30.58114448119465]
既存の物体検出法とポーズ推定法は、主に訓練に同次元のデータを用いる。
次元減少認知モデルであるDR-WLCは、物体検出と推定タスクを同時に行うことができる。
論文 参考訳(メタデータ) (2023-01-17T15:08:32Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Shape-Aware Monocular 3D Object Detection [15.693199934120077]
単分子3次元物体検出モデルを提案する。
この検出は、対象物を取り巻く無関係な領域からの干渉をほとんど避ける。
単分子3次元物体検出モデルに対して,新しい評価基準,すなわち平均深度類似度(ADS)を提案する。
論文 参考訳(メタデータ) (2022-04-19T07:43:56Z) - Object DGCNN: 3D Object Detection using Dynamic Graphs [32.090268859180334]
3Dオブジェクト検出は、複雑なトレーニングとテストパイプラインを伴うことが多い。
近年,非最大抑圧型2次元物体検出モデルに着想を得て,点雲上の3次元物体検出アーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-13T17:59:38Z) - Detecting Invisible People [58.49425715635312]
我々は,追跡ベンチマークを再利用し,目立たない物体を検出するための新しい指標を提案する。
私たちは、現在の検出および追跡システムがこのタスクで劇的に悪化することを実証します。
第2に,最先端の単眼深度推定ネットワークによる観測結果を用いて,3次元で明示的に推論する動的モデルを構築した。
論文 参考訳(メタデータ) (2020-12-15T16:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。