論文の概要: Center Direction Network for Grasping Point Localization on Cloths
- arxiv url: http://arxiv.org/abs/2408.14456v1
- Date: Mon, 26 Aug 2024 17:49:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:02:15.455028
- Title: Center Direction Network for Grasping Point Localization on Cloths
- Title(参考訳): 衣服のグラッピング点定位のための中心方向ネットワーク
- Authors: Domen Tabernik, Jon Muhovič, Matej Urbas, Danijel Skočaj,
- Abstract要約: 本稿では,布オブジェクト上の点検出のためのディープラーニングモデルであるCeDiRNet-3DoFを紹介する。
CeDiRNet-3DoFはICRA 2023のクロスマニピュレーションチャレンジの認識タスクで1位を獲得した。
現代のデータ駆動型ディープラーニングアプローチをトレーニングし評価するためのViCoS Towelデータセットを提案する。
- 参考スコア(独自算出の注目度): 1.7874338080799543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object grasping is a fundamental challenge in robotics and computer vision, critical for advancing robotic manipulation capabilities. Deformable objects, like fabrics and cloths, pose additional challenges due to their non-rigid nature. In this work, we introduce CeDiRNet-3DoF, a deep-learning model for grasp point detection, with a particular focus on cloth objects. CeDiRNet-3DoF employs center direction regression alongside a localization network, attaining first place in the perception task of ICRA 2023's Cloth Manipulation Challenge. Recognizing the lack of standardized benchmarks in the literature that hinder effective method comparison, we present the ViCoS Towel Dataset. This extensive benchmark dataset comprises 8,000 real and 12,000 synthetic images, serving as a robust resource for training and evaluating contemporary data-driven deep-learning approaches. Extensive evaluation revealed CeDiRNet-3DoF's robustness in real-world performance, outperforming state-of-the-art methods, including the latest transformer-based models. Our work bridges a crucial gap, offering a robust solution and benchmark for cloth grasping in computer vision and robotics. Code and dataset are available at: https://github.com/vicoslab/CeDiRNet-3DoF
- Abstract(参考訳): 物体の把握はロボット工学とコンピュータビジョンの基本的な課題であり、ロボット操作能力の進歩に不可欠である。
布や布のような変形可能な物体は、その非剛性のため、さらなる課題を生じさせる。
本稿では,特に布オブジェクトに着目した,点検出のためのディープラーニングモデルであるCeDiRNet-3DoFを紹介する。
CeDiRNet-3DoFはローカライゼーションネットワークとともに中心方向の回帰を採用し、ICRA 2023のクロスマニピュレーションチャレンジの認識タスクで1位を獲得した。
有効な手法比較を妨げている文献における標準ベンチマークの欠如を認識し,ViCoS Towel Datasetを提案する。
この大規模なベンチマークデータセットは、8000個の実画像と12,000個の合成画像で構成され、現代のデータ駆動ディープラーニングアプローチをトレーニングし評価するための堅牢なリソースとして機能する。
大規模な評価により、CeDiRNet-3DoFは、最新のトランスフォーマーベースモデルを含む最先端の手法よりも優れた実世界のパフォーマンスの堅牢性を示した。
私たちの仕事は重要なギャップを埋め、コンピュータービジョンとロボット工学における布をつかむための堅牢なソリューションとベンチマークを提供します。
コードとデータセットは、https://github.com/vicoslab/CeDiRNet-3DoFで入手可能だ。
関連論文リスト
- Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - ORBIT: A Real-World Few-Shot Dataset for Teachable Object Recognition [21.594641488685376]
我々は,視覚障害者のための教示可能な物体認識装置を実世界に適用したorbitデータセットとベンチマークを提案する。
データセットには、携帯電話で盲目/低視野の人が記録した486個のオブジェクトの3,822本のビデオが含まれている。
ベンチマークは現実的な、非常に挑戦的な認識問題を反映し、少数のショット、高変動条件に堅牢性の研究を推進するための豊富な遊び場を提供します。
論文 参考訳(メタデータ) (2021-04-08T15:32:01Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z) - Triangle-Net: Towards Robustness in Point Cloud Learning [0.0]
本稿では, 回転, 位置シフト, スケーリングに対する不変性を同時に実現し, 点間隔に頑健な3次元分類手法を提案する。
提案手法は,ModelNet 40分類タスクにおいて,ポイントネットと3DmFVをそれぞれ35.0%,28.1%で上回っている。
論文 参考訳(メタデータ) (2020-02-27T20:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。