論文の概要: Efficient and Robust Training of Dense Object Nets for Multi-Object
Robot Manipulation
- arxiv url: http://arxiv.org/abs/2206.12145v1
- Date: Fri, 24 Jun 2022 08:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 14:23:58.426700
- Title: Efficient and Robust Training of Dense Object Nets for Multi-Object
Robot Manipulation
- Title(参考訳): 多目的ロボットマニピュレーションのための高密度物体ネットの効率的・ロバストトレーニング
- Authors: David B. Adrian, Andras Gabor Kupcsik, Markus Spies and Heiko Neumann
- Abstract要約: 我々はDense Object Nets(DON)の堅牢で効率的なトレーニングのためのフレームワークを提案する。
本研究は,多目的データを用いた学習に重点を置いている。
実世界のロボットによる把握作業において,提案手法の頑健さと精度を実証する。
- 参考スコア(独自算出の注目度): 8.321536457963655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a framework for robust and efficient training of Dense Object Nets
(DON) with a focus on multi-object robot manipulation scenarios. DON is a
popular approach to obtain dense, view-invariant object descriptors, which can
be used for a multitude of downstream tasks in robot manipulation, such as,
pose estimation, state representation for control, etc.. However, the original
work focused training on singulated objects, with limited results on
instance-specific, multi-object applications. Additionally, a complex data
collection pipeline, including 3D reconstruction and mask annotation of each
object, is required for training. In this paper, we further improve the
efficacy of DON with a simplified data collection and training regime, that
consistently yields higher precision and enables robust tracking of keypoints
with less data requirements. In particular, we focus on training with
multi-object data instead of singulated objects, combined with a well-chosen
augmentation scheme. We additionally propose an alternative loss formulation to
the original pixelwise formulation that offers better results and is less
sensitive to hyperparameters. Finally, we demonstrate the robustness and
accuracy of our proposed framework on a real-world robotic grasping task.
- Abstract(参考訳): 本稿では,多目的ロボット操作シナリオに着目したDense Object Nets(DON)の堅牢かつ効率的なトレーニングフレームワークを提案する。
donは、ロボット操作における多数の下流タスク、例えばポーズ推定、制御のための状態表現などに使用できる、高密度でビュー不変なオブジェクト記述子を得るための一般的なアプローチである。
しかしながら、オリジナルの研究は、インスタンス固有のマルチオブジェクトアプリケーションで限られた結果が得られるように、対話オブジェクトのトレーニングに焦点を当てた。
さらに、トレーニングには、各オブジェクトの3D再構成とマスクアノテーションを含む複雑なデータ収集パイプラインが必要である。
本稿では,より簡易なデータ収集・訓練方式により,より高精度で,より少ないデータ要求でキーポイントのロバストなトラッキングを実現することで,donの有効性をさらに向上させる。
特に私たちは,歌唱されたオブジェクトではなく,マルチオブジェクトデータによるトレーニングに重点を置いています。
さらに、より優れた結果を提供し、ハイパーパラメータに対する感度が低い元のpixelwise定式化に対する代替的損失定式化を提案する。
最後に,実世界のロボットグルーピングタスクにおいて,提案するフレームワークの堅牢性と精度を実証する。
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - Counting Objects in a Robotic Hand [6.057565013011719]
多目的グリップを行うロボットは、グリップ後に手にあるオブジェクトの数を検出する必要がある。
本稿では,データ駆動型コントラスト学習に基づくカウント分類器を提案する。
提案手法は,実際の3つのオブジェクトに対して96%以上の精度を実現した。
論文 参考訳(メタデータ) (2024-04-09T21:46:14Z) - Proposal-Contrastive Pretraining for Object Detection from Fewer Data [11.416621957617334]
本稿では,新しい教師なし総合事前学習手法ProSeCoを提案する。
ProSeCoは、コントラスト学習のために検出器によって生成される多数のオブジェクト提案を使用する。
本手法は,標準および新しいベンチマークにおいて,対象検出のための教師なし事前学習において,最先端の手法であることを示す。
論文 参考訳(メタデータ) (2023-10-25T17:59:26Z) - Primitive3D: 3D Object Dataset Synthesis from Randomly Assembled
Primitives [44.03149443379618]
アノテーションで大量の3Dオブジェクトを自動生成するコスト効率のよい手法を提案する。
これらのオブジェクトはプリミティブから派生した部分ラベルで自動アノテーションされる。
生成したデータセットに対する学習のオーバーヘッドが大きいことを考慮し,データセットの蒸留戦略を提案する。
論文 参考訳(メタデータ) (2022-05-25T10:07:07Z) - DiffSkill: Skill Abstraction from Differentiable Physics for Deformable
Object Manipulations with Tools [96.38972082580294]
DiffSkillは、変形可能なオブジェクト操作タスクを解決するために、スキル抽象化に微分可能な物理シミュレータを使用する新しいフレームワークである。
特に、勾配に基づくシミュレーターから個々のツールを用いて、まず短距離のスキルを得る。
次に、RGBD画像を入力として取り込む実演軌跡から、ニューラルネットワークの抽象体を学習する。
論文 参考訳(メタデータ) (2022-03-31T17:59:38Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Supervised Training of Dense Object Nets using Optimal Descriptors for
Industrial Robotic Applications [57.87136703404356]
Florence、Manuelli、TedrakeによるDense Object Nets(DON)は、ロボットコミュニティのための新しいビジュアルオブジェクト表現として高密度オブジェクト記述子を導入した。
本稿では, 物体の3次元モデルを考えると, 記述子空間画像を生成することができ, DON の教師付きトレーニングが可能であることを示す。
産業用物体の6次元グリップ生成のためのトレーニング手法を比較し,新しい教師付きトレーニング手法により,産業関連タスクのピック・アンド・プレイス性能が向上することを示す。
論文 参考訳(メタデータ) (2021-02-16T11:40:12Z) - Distributed Reinforcement Learning of Targeted Grasping with Active
Vision for Mobile Manipulators [4.317864702902075]
移動体マニピュレータのための最初のRLベースのシステムを提案する。これは、(a)対象対象物に対する目標把握の一般化を実現し、(b)隠蔽対象物による乱れたシーンの複雑な把握戦略を学習し、(c)可動式手首カメラでアクティブなビジョンを実行し、オブジェクトの発見をより良くする。
シミュレーション環境でシステムのトレーニングと評価を行い,性能向上,動作解析,実環境への移動といった重要なコンポーネントを特定した。
論文 参考訳(メタデータ) (2020-07-16T02:47:48Z) - A Unified Object Motion and Affinity Model for Online Multi-Object
Tracking [127.5229859255719]
オブジェクトの動きと親和性モデルを単一のネットワークに統一する新しいMOTフレームワークUMAを提案する。
UMAは、単一物体追跡とメートル法学習をマルチタスク学習により統合された三重項ネットワークに統合する。
我々は,タスク認識機能学習を促進するために,タスク固有のアテンションモジュールを装備する。
論文 参考訳(メタデータ) (2020-03-25T09:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。