論文の概要: Visual Object Recognition in Indoor Environments Using Topologically
Persistent Features
- arxiv url: http://arxiv.org/abs/2010.03196v5
- Date: Wed, 28 Jul 2021 18:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 00:07:24.278921
- Title: Visual Object Recognition in Indoor Environments Using Topologically
Persistent Features
- Title(参考訳): トポロジ的特徴を用いた屋内環境における視覚物体認識
- Authors: Ekta U. Samani, Xingjian Yang, Ashis G. Banerjee
- Abstract要約: 見えない屋内環境における物体認識は、移動ロボットの視覚的認識にとって難しい問題である。
本稿では,この課題に対処するために,オブジェクトの形状情報に依存するトポロジカルに永続的な特徴を用いることを提案する。
提案手法を実世界のロボットに実装し,その有用性を実証する。
- 参考スコア(独自算出の注目度): 2.2344764434954256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object recognition in unseen indoor environments remains a challenging
problem for visual perception of mobile robots. In this letter, we propose the
use of topologically persistent features, which rely on the objects' shape
information, to address this challenge. In particular, we extract two kinds of
features, namely, sparse persistence image (PI) and amplitude, by applying
persistent homology to multi-directional height function-based filtrations of
the cubical complexes representing the object segmentation maps. The features
are then used to train a fully connected network for recognition. For
performance evaluation, in addition to a widely used shape dataset and a
benchmark indoor scenes dataset, we collect a new dataset, comprising scene
images from two different environments, namely, a living room and a mock
warehouse. The scenes are captured using varying camera poses under different
illumination conditions and include up to five different objects from a given
set of fourteen objects. On the benchmark indoor scenes dataset, sparse PI
features show better recognition performance in unseen environments than the
features learned using the widely used ResNetV2-56 and EfficientNet-B4 models.
Further, they provide slightly higher recall and accuracy values than Faster
R-CNN, an end-to-end object detection method, and its state-of-the-art variant,
Domain Adaptive Faster R-CNN. The performance of our methods also remains
relatively unchanged from the training environment (living room) to the unseen
environment (mock warehouse) in the new dataset. In contrast, the performance
of the object detection methods drops substantially. We also implement the
proposed method on a real-world robot to demonstrate its usefulness.
- Abstract(参考訳): 屋内環境における物体認識は, 移動ロボットの視覚知覚において課題となっている。
本稿では,この課題に対処するために,オブジェクトの形状情報に依存するトポロジカルに永続的な特徴を用いることを提案する。
特に,オブジェクトセグメンテーションマップを表す立方体錯体の多方向の高さ関数に基づくフィルタに永続的ホモロジーを適用することにより,スパース永続像(PI)と振幅の2種類の特徴を抽出する。
これらの機能は、認識のために完全に接続されたネットワークをトレーニングするために使用される。
性能評価には、広く使われている形状データセットと屋内シーンのベンチマークデータセットに加えて、リビングルームとモックウェアハウスという2つの異なる環境のシーンイメージを含む新しいデータセットを収集する。
それぞれのシーンは、異なる照明条件下でさまざまなカメラポーズを使用して撮影され、所定の14のオブジェクトセットから最大5つの異なるオブジェクトを含む。
ベンチマーク屋内シーンデータセットでは、スパースPI機能は、広く使用されているResNetV2-56とEfficientNet-B4モデルを用いて学習した機能よりも、目に見えない環境での認識性能が向上している。
さらに、エンドツーエンドのオブジェクト検出方法であるFaster R-CNNよりも若干高いリコールと精度を提供し、その最新版であるDomain Adaptive Faster R-CNNを提供する。
また,本手法の性能は,新たなデータセットのトレーニング環境(生活室)から見えない環境(モックウェアハウス)まで比較的変化しないままである。
対照的に、物体検出法の性能は大幅に低下する。
また,実世界のロボットに提案手法を実装し,その有用性を示す。
関連論文リスト
- Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - Evaluation of Environmental Conditions on Object Detection using Oriented Bounding Boxes for AR Applications [7.022872089444935]
拡張現実(AR)におけるシーン分析と物体認識の役割
性能と処理時間を改善するために,検出・認識深層ネットワークを備えた配向境界ボックスを用いた新しい手法が提案されている。
その結果, 提案手法は, 試験条件のほとんどにおいて, 平均精度が向上し, 小型物体の精度が向上する傾向が示唆された。
論文 参考訳(メタデータ) (2023-06-29T09:17:58Z) - Persistent Homology Meets Object Unity: Object Recognition in Clutter [2.356908851188234]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって難しい問題である。
本稿では,深度画像から生成された点雲のための新しい記述子TOPSと,人間の推論にインスパイアされた認識フレームワークTHORを提案する。
THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度が大幅に向上している。
論文 参考訳(メタデータ) (2023-05-05T19:42:39Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - Combining Local and Global Pose Estimation for Precise Tracking of
Similar Objects [2.861848675707602]
類似・非テクスチャオブジェクトに対する多目的6D検出・追跡パイプラインを提案する。
合成画像のみを訓練した新しいネットワークアーキテクチャは、複数のオブジェクトの同時ポーズ推定を可能にする。
建設現場における実際のAR支援アプリケーションにおいて,システムがどのように利用できるかを示す。
論文 参考訳(メタデータ) (2022-01-31T14:36:57Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - Object Detection in the Context of Mobile Augmented Reality [16.49070406578342]
本稿では,VIOから得られる幾何学的情報とオブジェクト検出器からの意味情報を組み合わせて,モバイルデバイス上での物体検出性能を向上させる手法を提案する。
提案手法は,(1)画像配向補正法,(2)スケールベースフィルタリング法,(3)オンライン意味地図の3つの構成要素を含む。
その結果,汎用物体検出器の精度をデータセット上で12%向上できることがわかった。
論文 参考訳(メタデータ) (2020-08-15T05:15:00Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。