論文の概要: Smart Explorer: Recognizing Objects in Dense Clutter via Interactive
Exploration
- arxiv url: http://arxiv.org/abs/2208.03496v1
- Date: Sat, 6 Aug 2022 11:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 13:04:11.237916
- Title: Smart Explorer: Recognizing Objects in Dense Clutter via Interactive
Exploration
- Title(参考訳): smart explorer:インタラクティブな探索による密集したクラッター内の物体認識
- Authors: Zhenyu Wu, Ziwei Wang, Zibu Wei, Yi Wei and Haibin Yan
- Abstract要約: 密集した物体を正確に認識することは、様々なロボット操作タスクにおいて重要な役割を担っている。
本稿では,高密度なオブジェクトを認識できるSmart Explorerという対話型探索フレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.38518623440405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recognizing objects in dense clutter accurately plays an important role to a
wide variety of robotic manipulation tasks including grasping, packing,
rearranging and many others. However, conventional visual recognition models
usually miss objects because of the significant occlusion among instances and
causes incorrect prediction due to the visual ambiguity with the high object
crowdedness. In this paper, we propose an interactive exploration framework
called Smart Explorer for recognizing all objects in dense clutters. Our Smart
Explorer physically interacts with the clutter to maximize the recognition
performance while minimize the number of motions, where the false positives and
negatives can be alleviated effectively with the optimal accuracy-efficiency
trade-offs. Specifically, we first collect the multi-view RGB-D images of the
clutter and reconstruct the corresponding point cloud. By aggregating the
instance segmentation of RGB images across views, we acquire the instance-wise
point cloud partition of the clutter through which the existed classes and the
number of objects for each class are predicted. The pushing actions for
effective physical interaction are generated to sizably reduce the recognition
uncertainty that consists of the instance segmentation entropy and multi-view
object disagreement. Therefore, the optimal accuracy-efficiency trade-off of
object recognition in dense clutter is achieved via iterative instance
prediction and physical interaction. Extensive experiments demonstrate that our
Smart Explorer acquires promising recognition accuracy with only a few actions,
which also outperforms the random pushing by a large margin.
- Abstract(参考訳): 密集クラッタにおける物体の認識は、把握、梱包、再配置など、幅広いロボット操作タスクにおいて重要な役割を担っている。
しかし, 従来の視覚認識モデルでは, 症例間の有意な咬合による物体の欠落や, 物体の混み合いが高まる視覚の曖昧さによる不正確な予測が一般的である。
本稿では,すべての物体を密集したクラッタで認識するための,smart explorerと呼ばれる対話型探索フレームワークを提案する。
われわれのスマートエクスプローラーは、認識性能を最大化するためにクラッタと物理的に相互作用し、動作回数を最小限に抑えながら、最適な精度と効率のトレードオフによって、偽陽性と負の低減を効果的に行うことができる。
具体的には,まずクラッタの多視点rgb-d画像を収集し,対応する点雲を再構成する。
ビュー間でrgbイメージのインスタンスセグメンテーションを集約することにより、既存のクラスと各クラスのオブジェクト数を予測するクラッターのインスタンス毎ポイントクラウドパーティションを取得する。
有効物理相互作用のためのプッシュ動作は、インスタンスセグメンテーションエントロピーとマルチビューオブジェクトの不一致からなる認識の不確実性を大幅に低減するために生成される。
したがって、密閉クラッタにおける物体認識の最適精度-効率トレードオフは、反復的なインスタンス予測と物理的相互作用によって達成される。
大規模な実験では、スマートエクスプローラーがいくつかのアクションだけで有望な認識精度を獲得し、ランダムなプッシュを大きなマージンで上回ります。
関連論文リスト
- Interactive Masked Image Modeling for Multimodal Object Detection in Remote Sensing [2.0528748158119434]
マルチモーダル学習は、異なるデータモダリティの機能を統合するために使用することができ、それによって検出精度が向上する。
本稿では,事前学習手法としてMasked Image Modeling (MIM) を提案する。
そこで本稿では,リモートセンシングにおけるオブジェクト検出に特に有用である,異なるトークン間のインタラクションを確立するための対話型MIM手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:50:50Z) - MARS: Multimodal Active Robotic Sensing for Articulated Characterization [6.69660410213287]
我々は,音声による物体のキャラクタリゼーションのための新しいフレームワークMARSを紹介する。
マルチスケールのRGB機能を活用してポイントクラウド機能を強化するマルチモーダルフュージョンモジュールを備えている。
本手法は,実世界の音声オブジェクトに効果的に一般化し,ロボットのインタラクションを向上する。
論文 参考訳(メタデータ) (2024-07-01T11:32:39Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - Object-centric Cross-modal Feature Distillation for Event-based Object
Detection [87.50272918262361]
RGB検出器は、イベントデータのばらつきと視覚的詳細の欠如により、イベントベースの検出器よりも優れている。
これら2つのモード間の性能ギャップを縮めるための新しい知識蒸留手法を開発した。
対象中心蒸留により,イベントベースの学生物体検出装置の性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-11-09T16:33:08Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object
Detection [0.0]
本稿では,不明瞭な画像を観察する際の人間の動作を模倣する混合スケール三重項ネットワークbf ZoomNetを提案する。
具体的には、ZoomNetは、ズーム戦略を用いて、設計されたスケール統合ユニットと階層的な混合スケールユニットによって、差別的な混合スケール意味学を学ぶ。
提案したタスクフレンドリなモデルは、4つの公開データセット上の既存の23の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2022-03-05T09:13:52Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。