論文の概要: TARGO: Benchmarking Target-driven Object Grasping under Occlusions
- arxiv url: http://arxiv.org/abs/2407.06168v1
- Date: Mon, 8 Jul 2024 17:47:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:30:11.041401
- Title: TARGO: Benchmarking Target-driven Object Grasping under Occlusions
- Title(参考訳): TARGO: Occlusionsの下でターゲット駆動型オブジェクトグラフのベンチマーク
- Authors: Yan Xia, Ran Ding, Ziyuan Qin, Guanqi Zhan, Kaichen Zhou, Long Yang, Hao Dong, Daniel Cremers,
- Abstract要約: 我々はまず,Occlusionsの下でTARGOという,TARget駆動型グラフ作成のための新しいベンチマークデータセットを構築した。
我々は5つのグリップモデルを評価し、現在のSOTAモデルでさえ、閉塞レベルが大きくなると悩むことを見出した。
本稿では, TARGO-Net と呼ばれる形状完備化モジュールを含む変圧器を用いた把握モデルを提案する。
- 参考スコア(独自算出の注目度): 39.970680093124145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in predicting 6D grasp poses from a single depth image have led to promising performance in robotic grasping. However, previous grasping models face challenges in cluttered environments where nearby objects impact the target object's grasp. In this paper, we first establish a new benchmark dataset for TARget-driven Grasping under Occlusions, named TARGO. We make the following contributions: 1) We are the first to study the occlusion level of grasping. 2) We set up an evaluation benchmark consisting of large-scale synthetic data and part of real-world data, and we evaluated five grasp models and found that even the current SOTA model suffers when the occlusion level increases, leaving grasping under occlusion still a challenge. 3) We also generate a large-scale training dataset via a scalable pipeline, which can be used to boost the performance of grasping under occlusion and generalized to the real world. 4) We further propose a transformer-based grasping model involving a shape completion module, termed TARGO-Net, which performs most robustly as occlusion increases. Our benchmark dataset can be found at https://TARGO-benchmark.github.io/.
- Abstract(参考訳): 単一深度画像からの6次元グリップポーズの予測の最近の進歩は、ロボットグリップにおける有望な性能をもたらした。
しかし、従来の把握モデルは、近くの物体が対象物体の把握に影響を及ぼす散らかった環境において課題に直面している。
本稿では,Occlusions を用いた TARget-driven Grasping のための新しいベンチマークデータセット TARGO を構築した。
以下に貢献する。
1) つかむことの排他的レベルを初めて研究する。
2) 大規模合成データと実世界のデータの一部からなる評価ベンチマークを設定し, 5つの把握モデルを評価し, 現在のSOTAモデルでさえ, 閉塞レベルが大きくなると悩まされ, 隠蔽下での把握は依然として困難であることがわかった。
3) 拡張性のあるパイプラインを通じて大規模なトレーニングデータセットを生成することで,隠蔽下での把握性能を高め,現実の世界に一般化することが可能になる。
4) TARGO-Net と呼ばれる形状完備モジュールを含む変圧器による把握モデルも提案する。
ベンチマークデータセットはhttps://TARGO-benchmark.github.io/で確認できます。
関連論文リスト
- Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Implicit and Efficient Point Cloud Completion for 3D Single Object
Tracking [9.372859423951349]
適応リファイン予測(ARP)とターゲット知識伝達(TKT)の2つの新しいモジュールを紹介する。
本モデルでは,より少ない計算量を維持しながら,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-09-01T15:11:06Z) - THE Benchmark: Transferable Representation Learning for Monocular Height
Estimation [25.872962101146115]
クロスデータセット設定における高さ推定モデルの転送可能性を検討するための新しいベンチマークデータセットを提案する。
このベンチマークデータセットには、新しく提案された大規模合成データセット、新たに収集された実世界のデータセット、および異なる都市の既存の4つのデータセットが含まれている。
本論文では、高さ推定タスクにおけるスケール変量問題に対処するウィンドウベース変換器を強化するためのスケール変形可能な畳み込みモジュールを提案する。
論文 参考訳(メタデータ) (2021-12-30T09:40:26Z) - Occlusion-Robust Object Pose Estimation with Holistic Representation [42.27081423489484]
State-of-the-art(SOTA)オブジェクトのポーズ推定器は2段階のアプローチを取る。
我々は,新しいブロック・アンド・ブラックアウトバッチ拡張技術を開発した。
また,総合的なポーズ表現学習を促進するためのマルチ精度監視アーキテクチャも開発している。
論文 参考訳(メタデータ) (2021-10-22T08:00:26Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - Point Transformer for Shape Classification and Retrieval of 3D and ALS
Roof PointClouds [3.3744638598036123]
本稿では,リッチポイントクラウド表現の導出を目的とした,完全注意モデルであるem Point Transformerを提案する。
モデルの形状分類と検索性能は,大規模都市データセット - RoofN3D と標準ベンチマークデータセット ModelNet40 で評価される。
提案手法は、RoofN3Dデータセットの他の最先端モデルよりも優れており、ModelNet40ベンチマークで競合する結果を与え、目に見えない点の破損に対して高い堅牢性を示す。
論文 参考訳(メタデータ) (2020-11-08T08:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。