論文の概要: Human-Inspired Topological Representations for Visual Object Recognition
in Unseen Environments
- arxiv url: http://arxiv.org/abs/2309.08239v1
- Date: Fri, 15 Sep 2023 08:24:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 15:23:09.661640
- Title: Human-Inspired Topological Representations for Visual Object Recognition
in Unseen Environments
- Title(参考訳): 目に見えない環境における視覚物体認識のための人為的トポロジカル表現
- Authors: Ekta U. Samani and Ashis G. Banerjee
- Abstract要約: 形状に基づくTOPS2ディスクリプタと、視覚オブジェクト認識のためのTHOR2フレームワークを提案する。
合成データを用いてトレーニングされたTHOR2は、形状ベースのTHORフレームワークよりもかなり高い認識精度を実現する。
THOR2は、低コストロボットで堅牢な認識を実現するための、有望なステップである。
- 参考スコア(独自算出の注目度): 2.356908851188234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual object recognition in unseen and cluttered indoor environments is a
challenging problem for mobile robots. Toward this goal, we extend our previous
work to propose the TOPS2 descriptor, and an accompanying recognition
framework, THOR2, inspired by a human reasoning mechanism known as object
unity. We interleave color embeddings obtained using the Mapper algorithm for
topological soft clustering with the shape-based TOPS descriptor to obtain the
TOPS2 descriptor. THOR2, trained using synthetic data, achieves substantially
higher recognition accuracy than the shape-based THOR framework and outperforms
RGB-D ViT on two real-world datasets: the benchmark OCID dataset and the UW-IS
Occluded dataset. Therefore, THOR2 is a promising step toward achieving robust
recognition in low-cost robots.
- Abstract(参考訳): 屋内環境における視覚物体認識は, 移動ロボットにとって難しい課題である。
この目標に向けて、我々は以前の研究を拡張し、tops2ディスクリプタと、それに伴う認識フレームワークであるthor2を、object unityとして知られる人間の推論機構にインスパイアした。
形状に基づくTOPSデクリプタと位相的ソフトクラスタリングのためのMapperアルゴリズムを用いて得られたカラー埋め込みをインターリーブし、TOPS2デクリプタを得る。
合成データを用いてトレーニングされたTHOR2は、形状ベースのTHORフレームワークよりもかなり高い認識精度を実現し、ベンチマークOCIDデータセットとUW-IS Occludedデータセットの2つの実世界のデータセットでRGB-D ViTを上回っている。
したがって、THOR2は低コストロボットにおける堅牢な認識を実現するための有望なステップである。
関連論文リスト
- THOR2: Leveraging Topological Soft Clustering of Color Space for Human-Inspired Object Recognition in Unseen Environments [1.9950682531209158]
本研究では,RGB-D画像から生成された点群に対する3次元形状と色に基づく記述子TOPS2と,それに付随する認識フレームワークTHOR2を提案する。
TOPS2ディスクリプタは、TOPSディスクリプタから3D形状のスライシングに基づくトポロジカル表現を保持することにより、人間の認知機構であるオブジェクト単位を具現化する。
合成データを用いてトレーニングされたTHOR2は、3D形状をベースとしたTHORに比べて認識精度が著しく向上した。
論文 参考訳(メタデータ) (2024-08-02T21:24:14Z) - Persistent Homology Meets Object Unity: Object Recognition in Clutter [2.356908851188234]
見えない屋内環境における隠蔽物体の認識は、移動ロボットにとって難しい問題である。
本稿では,深度画像から生成された点雲のための新しい記述子TOPSと,人間の推論にインスパイアされた認識フレームワークTHORを提案する。
THORは両方のデータセットで最先端の手法より優れており、UW-IS Occludedデータセットのすべてのシナリオに対する認識精度が大幅に向上している。
論文 参考訳(メタデータ) (2023-05-05T19:42:39Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - Multi-Modal Human Authentication Using Silhouettes, Gait and RGB [59.46083527510924]
全体認証は、遠隔生体認証のシナリオにおいて有望なアプローチである。
本稿では,RGBデータとシルエットデータを組み合わせたDME(Dual-Modal Ensemble)を提案する。
DME内では、従来の歩行分析に使用される二重ヘリカル歩行パターンにインスパイアされたGaitPatternを提案する。
論文 参考訳(メタデータ) (2022-10-08T15:17:32Z) - DcnnGrasp: Towards Accurate Grasp Pattern Recognition with Adaptive
Regularizer Learning [13.08779945306727]
現在の最先端手法は、パターン認識に不可欠なオブジェクトのカテゴリ情報を無視している。
本稿では,物体分類と把握パターン認識の連成学習を実現するために,二分岐畳み込みニューラルネットワーク(DcnnGrasp)を提案する。
論文 参考訳(メタデータ) (2022-05-11T00:34:27Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Unseen Object Instance Segmentation for Robotic Environments [67.88276573341734]
本稿では,テーブルトップ環境において未確認のオブジェクトインスタンスをセグメント化する手法を提案する。
UOIS-Netは2つのステージで構成されている: まず、オブジェクトのインスタンス中心の投票を2Dまたは3Dで生成するために、深さでのみ動作する。
驚くべきことに、我々のフレームワークは、RGBが非フォトリアリスティックな合成RGB-Dデータから学習することができる。
論文 参考訳(メタデータ) (2020-07-16T01:59:13Z) - Unsupervised Domain Adaptation through Inter-modal Rotation for RGB-D
Object Recognition [31.24587317555857]
本稿では,RGBと深度画像のモーダル間関係を利用して,合成領域から実領域へのシフトを低減する新しいRGB-D DA法を提案する。
提案手法は,主認識タスクに加えて,RGBと深度画像の相対的回転を予測するプリテキストタスクである畳み込みニューラルネットワークを訓練することで解決する。
論文 参考訳(メタデータ) (2020-04-21T13:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。