論文の概要: When Transformer Meets Robotic Grasping: Exploits Context for Efficient
Grasp Detection
- arxiv url: http://arxiv.org/abs/2202.11911v1
- Date: Thu, 24 Feb 2022 05:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-26 03:16:50.400572
- Title: When Transformer Meets Robotic Grasping: Exploits Context for Efficient
Grasp Detection
- Title(参考訳): トランスフォーマーとロボットグラスピング:効率的なグラフ検出のためのコンテキストの展開
- Authors: Shaochen Wang, Zhangli Zhou, and Zhen Kan
- Abstract要約: 本稿では,ロボットグリップ検出のためのトランスフォーマーアーキテクチャTF-Graspを提案する。
フレームワークには2つの精巧な設計があり、視覚的な把握作業に適している。
TF-Graspは、最先端の把握畳み込みモデルよりも優れた結果が得られる。
- 参考スコア(独自算出の注目度): 1.7013938542585925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a transformer-based architecture, namely TF-Grasp,
for robotic grasp detection. The developed TF-Grasp framework has two elaborate
designs making it well suitable for visual grasping tasks. The first key design
is that we adopt the local window attention to capture local contextual
information and detailed features of graspable objects. Then, we apply the
cross window attention to model the long-term dependencies between distant
pixels. Object knowledge, environmental configuration, and relationships
between different visual entities are aggregated for subsequent grasp
detection. The second key design is that we build a hierarchical
encoder-decoder architecture with skip-connections, delivering shallow features
from encoder to decoder to enable a multi-scale feature fusion. Due to the
powerful attention mechanism, the TF-Grasp can simultaneously obtain the local
information (i.e., the contours of objects), and model long-term connections
such as the relationships between distinct visual concepts in clutter.
Extensive computational experiments demonstrate that the TF-Grasp achieves
superior results versus state-of-art grasping convolutional models and attain a
higher accuracy of 97.99% and 94.6% on Cornell and Jacquard grasping datasets,
respectively. Real-world experiments using a 7DoF Franka Emika Panda robot also
demonstrate its capability of grasping unseen objects in a variety of
scenarios. The code and pre-trained models will be available at
https://github.com/WangShaoSUN/grasp-transformer
- Abstract(参考訳): 本稿では,ロボット把持検出のためのトランスフォーマーアーキテクチャであるtf-graspを提案する。
開発したTF-Graspフレームワークには2つの精巧な設計があり、視覚的な把握作業に適している。
最初の重要な設計は、ローカルウィンドウの注意を取り入れて、ローカルなコンテキスト情報と、把握可能なオブジェクトの詳細な特徴を捉えることです。
次に,クロスウィンドウの注意を,遠方の画素間の長期的な依存関係をモデル化するために適用する。
その後の把握検出のために、オブジェクト知識、環境構成、異なる視覚エンティティ間の関係を集約する。
2つ目の重要な設計は、スキップ接続で階層的なエンコーダ-デコーダアーキテクチャを構築し、エンコーダからデコーダまでの浅い機能を、マルチスケールの機能融合を可能にすることです。
この強力な注意機構により、TF-Graspは局所情報(オブジェクトの輪郭)を同時に取得でき、クラッタ内の異なる視覚概念間の関係のような長期接続をモデル化することができる。
広範な計算実験により、tf-graspは最先端の把持畳み込みモデルよりも優れた結果を達成し、コーネルおよびジャカード把持データセットにおいて97.99%と94.6%の精度を達成した。
7DoFのFranka Emika Pandaロボットを用いた実世界の実験も、さまざまなシナリオで見えない物体をつかむ能力を実証している。
コードと事前訓練されたモデルはhttps://github.com/WangShaoSUN/grasp-transformerで入手できる。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Probabilistic Tracking with Deep Factors [8.030212474745879]
因子グラフに基づく確率的追跡フレームワークにおける特徴量に対する生成密度と組み合わせたディープ・フィーチャー・エンコーディングの使い方を示す。
本稿では,学習した特徴エンコーダと生成密度を組み合わせる可能性モデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T21:31:51Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。