論文の概要: Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains
- arxiv url: http://arxiv.org/abs/2106.01866v1
- Date: Thu, 3 Jun 2021 14:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 16:01:13.285101
- Title: Simultaneous Multi-View Object Recognition and Grasping in Open-Ended
Domains
- Title(参考訳): オープンエンド領域における同時多視点物体認識と把持
- Authors: Hamidreza Kasaei, Sha Luo, Remo Sasso, Mohammadreza Kasaei
- Abstract要約: オープンなオブジェクト認識と把握を同時に行うために,メモリ容量を増強したディープラーニングアーキテクチャを提案する。
シミュレーションと実世界設定の両方において,本手法が未確認のオブジェクトを把握し,現場でのごくわずかな例を用いて,新たなオブジェクトカテゴリを迅速に学習できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A robot working in human-centric environments needs to know which kind of
objects exist in the scene, where they are, and how to grasp and manipulate
various objects in different situations to help humans in everyday tasks.
Therefore, object recognition and grasping are two key functionalities for such
robots. Most state-of-the-art tackles object recognition and grasping as two
separate problems while both use visual input. Furthermore, the knowledge of
the robot is fixed after the training phase. In such cases, if the robot faces
new object categories, it must retrain from scratch to incorporate new
information without catastrophic interference. To address this problem, we
propose a deep learning architecture with augmented memory capacities to handle
open-ended object recognition and grasping simultaneously. In particular, our
approach takes multi-views of an object as input and jointly estimates
pixel-wise grasp configuration as well as a deep scale- and rotation-invariant
representation as outputs. The obtained representation is then used for
open-ended object recognition through a meta-active learning technique. We
demonstrate the ability of our approach to grasp never-seen-before objects and
to rapidly learn new object categories using very few examples on-site in both
simulation and real-world settings.
- Abstract(参考訳): 人間中心の環境で作業するロボットは、現場にどのような種類の物体が存在するのか、どのように様々な状況で様々な物体を把握し操作するかを知る必要がある。
したがって、物体認識と把持は、ロボットにとって2つの重要な機能である。
ほとんどの最先端技術は、オブジェクト認識と把握に2つの問題として取り組み、どちらも視覚入力を使用している。
さらに、訓練段階後にロボットの知識を固定する。
このような場合、ロボットが新たな対象カテゴリに直面している場合、破壊的な干渉なしに新しい情報を組み込むために、ゼロから再訓練する必要がある。
そこで本研究では,オープンエンドオブジェクト認識と把持を同時に処理できる拡張メモリ容量を持つディープラーニングアーキテクチャを提案する。
特に,対象のマルチビューを入力として,画素毎の把握構成と,出力としての深いスケール・ローテーション不変表現を共同で推定する。
得られた表現は、メタアクティブな学習技術を通じてオープンエンドオブジェクト認識に使用される。
シミュレーションと実世界設定の両方において,本手法が未確認対象を把握し,新たな対象カテゴリーを迅速に学習する能力を示す。
関連論文リスト
- ICGNet: A Unified Approach for Instance-Centric Grasping [42.92991092305974]
オブジェクト中心の把握のためのエンドツーエンドアーキテクチャを導入する。
提案手法の有効性を,合成データセット上での最先端手法に対して広範囲に評価することにより示す。
論文 参考訳(メタデータ) (2024-01-18T12:41:41Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Lifelong Ensemble Learning based on Multiple Representations for
Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文 参考訳(メタデータ) (2022-05-04T10:29:10Z) - Contrastive Object Detection Using Knowledge Graph Embeddings [72.17159795485915]
一つのホットアプローチで学習したクラス埋め込みの誤差統計と、自然言語処理や知識グラフから意味的に構造化された埋め込みを比較した。
本稿では,キーポイントベースおよびトランスフォーマーベースオブジェクト検出アーキテクチャの知識埋め込み設計を提案する。
論文 参考訳(メタデータ) (2021-12-21T17:10:21Z) - DemoGrasp: Few-Shot Learning for Robotic Grasping with Human
Demonstration [42.19014385637538]
本稿では,ロボットに対して,単純で短い人間の実演で物体をつかむ方法を教えることを提案する。
まず、人間と物体の相互作用を示すRGB-D画像の小さなシーケンスを提示する。
このシーケンスを使用して、インタラクションを表す手とオブジェクトメッシュを構築する。
論文 参考訳(メタデータ) (2021-12-06T08:17:12Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Reactive Human-to-Robot Handovers of Arbitrary Objects [57.845894608577495]
本稿では、未知の物体の人間とロボットのハンドオーバを可能にするビジョンベースシステムを提案する。
提案手法は,クローズドループ運動計画とリアルタイムかつ時間的に一貫性のあるグリップ生成を組み合わせたものである。
提案手法の汎用性,ユーザビリティ,ロバスト性を,26種類の家庭用オブジェクトからなる新しいベンチマークで実証した。
論文 参考訳(メタデータ) (2020-11-17T21:52:22Z) - Learning Object-Based State Estimators for Household Robots [11.055133590909097]
我々は高次元観測と仮説に基づいてオブジェクトベースのメモリシステムを構築する。
シミュレーション環境と実画像の両方において動的に変化するオブジェクトの記憶を維持するシステムの有効性を実証する。
論文 参考訳(メタデータ) (2020-11-06T04:18:52Z) - Open-Ended Fine-Grained 3D Object Categorization by Combining Shape and
Texture Features in Multiple Colorspaces [5.89118432388542]
本研究では, 形状情報はすべてのカテゴリの共通パターンを符号化し, テクスチャ情報を用いて各インスタンスの外観を詳細に記述する。
提案したネットワークアーキテクチャは、オブジェクト分類の精度とスケーラビリティの観点から、選択した最先端のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-09-19T14:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。