論文の概要: THOR2: Leveraging Topological Soft Clustering of Color Space for Human-Inspired Object Recognition in Unseen Environments
- arxiv url: http://arxiv.org/abs/2408.01579v1
- Date: Fri, 2 Aug 2024 21:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:30:18.822293
- Title: THOR2: Leveraging Topological Soft Clustering of Color Space for Human-Inspired Object Recognition in Unseen Environments
- Title(参考訳): THOR2: 色空間のトポロジカルソフトクラスタリングによる不透明環境におけるヒューマンインスパイアされた物体認識
- Authors: Ekta U. Samani, Ashis G. Banerjee,
- Abstract要約: 本研究では,RGB-D画像から生成された点群に対する3次元形状と色に基づく記述子TOPS2と,それに付随する認識フレームワークTHOR2を提案する。
TOPS2ディスクリプタは、TOPSディスクリプタから3D形状のスライシングに基づくトポロジカル表現を保持することにより、人間の認知機構であるオブジェクト単位を具現化する。
合成データを用いてトレーニングされたTHOR2は、3D形状をベースとしたTHORに比べて認識精度が著しく向上した。
- 参考スコア(独自算出の注目度): 1.9950682531209158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual object recognition in unseen and cluttered indoor environments is a challenging problem for mobile robots. This study presents a 3D shape and color-based descriptor, TOPS2, for point clouds generated from RGB-D images and an accompanying recognition framework, THOR2. The TOPS2 descriptor embodies object unity, a human cognition mechanism, by retaining the slicing-based topological representation of 3D shape from the TOPS descriptor while capturing object color information through slicing-based color embeddings computed using a network of coarse color regions. These color regions, analogous to the MacAdam ellipses identified in human color perception, are obtained using the Mapper algorithm, a topological soft-clustering technique. THOR2, trained using synthetic data, demonstrates markedly improved recognition accuracy compared to THOR, its 3D shape-based predecessor, on two benchmark real-world datasets: the OCID dataset capturing cluttered scenes from different viewpoints and the UW-IS Occluded dataset reflecting different environmental conditions and degrees of object occlusion recorded using commodity hardware. THOR2 also outperforms baseline deep learning networks, and a widely-used ViT adapted for RGB-D inputs on both the datasets. Therefore, THOR2 is a promising step toward achieving robust recognition in low-cost robots.
- Abstract(参考訳): 見えない、散らばった屋内環境における視覚的物体認識は、移動ロボットにとって難しい問題である。
本研究では,RGB-D画像から生成された点群に対する3次元形状と色に基づく記述子TOPS2と,それに付随する認識フレームワークTHOR2を提案する。
TOPS2ディスクリプタは、粗い色領域のネットワークを用いて計算されたスライスベースのカラー埋め込みを通じてオブジェクト色情報をキャプチャしながら、TOPSディスクリプタから3D形状のスライスベースのトポロジカル表現を保持することにより、人間の認知機構であるオブジェクト単位を具現化する。
これらの色領域は, トポロジカルソフトクラスタリング法であるMapperアルゴリズムを用いて, 人間の色知覚で同定されたマカダム楕円体に類似している。
合成データを用いてトレーニングされたTHOR2は、異なる視点から散在するシーンをキャプチャするOCIDデータセットと、異なる環境条件とコモディティハードウェアを用いて記録されたオブジェクトの閉塞度を反映するUW-IS Occludedデータセットの2つのベンチマークで、3D形状ベースの前駆体であるTHORと比較して、認識精度が著しく向上したことを示した。
THOR2はまた、ベースラインのディープラーニングネットワークよりも優れており、両方のデータセットでRGB-D入力に適応した広く使われているViTである。
したがって、THOR2は低コストロボットにおける堅牢な認識を実現するための有望なステップである。
関連論文リスト
- Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。
そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T16:01:10Z) - 3D Instance Segmentation Using Deep Learning on RGB-D Indoor Data [0.0]
2次元領域をベースとした畳み込みニューラルネットワーク(Mask R-CNN)深層学習モデルにポイントベースレンダリングモジュールを適用し,深度情報と統合してオブジェクトの3Dインスタンスを認識し,セグメント化する。
3Dポイントクラウド座標を生成するために、RGB画像内の認識対象領域のセグメンテーションされた2Dピクセルを奥行き画像の(u,v)ポイントにマージする。
論文 参考訳(メタデータ) (2024-06-19T08:00:35Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - Pre-Training LiDAR-Based 3D Object Detectors Through Colorization [65.03659880456048]
我々は,データとラベルのギャップを埋めるために,革新的な事前学習手法であるグラウンドドポイントカラー化(GPC)を導入する。
GPCは、LiDAR点雲を色付けし、価値あるセマンティック・キューを装備するモデルを教えている。
KITTIとデータセットの実験結果は、GPCの顕著な効果を示している。
論文 参考訳(メタデータ) (2023-10-23T06:00:24Z) - Human-Inspired Topological Representations for Visual Object Recognition
in Unseen Environments [2.356908851188234]
形状に基づくTOPS2ディスクリプタと、視覚オブジェクト認識のためのTHOR2フレームワークを提案する。
合成データを用いてトレーニングされたTHOR2は、形状ベースのTHORフレームワークよりもかなり高い認識精度を実現する。
THOR2は、低コストロボットで堅牢な認識を実現するための、有望なステップである。
論文 参考訳(メタデータ) (2023-09-15T08:24:07Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Topologically Persistent Features-based Object Recognition in Cluttered
Indoor Environments [1.2691047660244335]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって困難な問題である。
本研究では,物体点雲の3次元形状を捉えるスライシングに基づく新しいトポロジカルディスクリプタを提案する。
これは、隠蔽対象のディスクリプタとそれに対応する非隠蔽対象との類似性を生じさせ、オブジェクトのユニティに基づく認識を可能にする。
論文 参考訳(メタデータ) (2022-05-16T07:01:16Z) - Scale Invariant Semantic Segmentation with RGB-D Fusion [12.650574326251023]
RGB-D画像を用いたスケール不変セマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
画素単位のセマンティックセグメンテーションのためのRGBデータに深度情報を組み込んで,屋外シーンにおける異なるスケールオブジェクトに対処する。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2022-04-10T12:54:27Z) - Unseen Object Instance Segmentation for Robotic Environments [67.88276573341734]
本稿では,テーブルトップ環境において未確認のオブジェクトインスタンスをセグメント化する手法を提案する。
UOIS-Netは2つのステージで構成されている: まず、オブジェクトのインスタンス中心の投票を2Dまたは3Dで生成するために、深さでのみ動作する。
驚くべきことに、我々のフレームワークは、RGBが非フォトリアリスティックな合成RGB-Dデータから学習することができる。
論文 参考訳(メタデータ) (2020-07-16T01:59:13Z) - Investigating the Importance of Shape Features, Color Constancy, Color
Spaces and Similarity Measures in Open-Ended 3D Object Recognition [4.437005770487858]
オープンエンド3次元物体認識における形状情報,色濃度,色空間,および様々な類似度尺度の重要性について検討した。
実験結果から, 色と形状のテクスタイピングは, テクスタイピングのみのアプローチ, テクスタイピングのみのアプローチよりも大幅に改善されていることが明らかとなった。
論文 参考訳(メタデータ) (2020-02-10T14:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。