論文の概要: A Robotic Visual Grasping Design: Rethinking Convolution Neural Network
with High-Resolutions
- arxiv url: http://arxiv.org/abs/2209.07459v2
- Date: Fri, 16 Sep 2022 03:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-19 11:25:15.501690
- Title: A Robotic Visual Grasping Design: Rethinking Convolution Neural Network
with High-Resolutions
- Title(参考訳): ロボットの視覚グラスピング設計:高分解能で畳み込みニューラルネットワークを再考する
- Authors: Zhangli Zhou, Shaochen Wang, Ziyang Chen, Mingyu Cai, Zhen Kan
- Abstract要約: 高解像度表現は視覚に基づくロボットの把握問題にとって重要である。
既存の作業は、通常、入力画像をサブネットワークを介して低解像度の表現にエンコードし、次に高解像度の表現を復元する。
並列ブランチをシリアルスタック化された畳み込み層ではなく使用することは、ロボット視覚把握タスクにおいてより強力な設計となることを実証する。
- 参考スコア(独自算出の注目度): 4.322339935902437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution representations are important for vision-based robotic
grasping problems. Existing works generally encode the input images into
low-resolution representations via sub-networks and then recover
high-resolution representations. This will lose spatial information, and errors
introduced by the decoder will be more serious when multiple types of objects
are considered or objects are far away from the camera. To address these
issues, we revisit the design paradigm of CNN for robotic perception tasks. We
demonstrate that using parallel branches as opposed to serial stacked
convolutional layers will be a more powerful design for robotic visual grasping
tasks. In particular, guidelines of neural network design are provided for
robotic perception tasks, e.g., high-resolution representation and lightweight
design, which respond to the challenges in different manipulation scenarios. We
then develop a novel grasping visual architecture referred to as HRG-Net, a
parallel-branch structure that always maintains a high-resolution
representation and repeatedly exchanges information across resolutions.
Extensive experiments validate that these two designs can effectively enhance
the accuracy of visual-based grasping and accelerate network training. We show
a series of comparative experiments in real physical environments at Youtube:
https://youtu.be/Jhlsp-xzHFY.
- Abstract(参考訳): 高分解能表現は視覚に基づくロボット把持問題において重要である。
既存の作品では、入力画像をサブネットワークを介して低解像度表現にエンコードし、高解像度表現を復元する。
これは空間的な情報を失い、デコーダによってもたらされるエラーは、複数のタイプのオブジェクトが考慮されたり、カメラから遠く離れている場合、より深刻なものになる。
これらの課題に対処するために,ロボット認識タスクのためのCNNの設計パラダイムを再考する。
並列分岐を連続的に積み重ねられた畳み込み層とは対照的に,ロボットの視覚把握タスクにおいてより強力な設計となることを実証する。
特に、ニューラルネットワーク設計のガイドラインは、例えば、様々な操作シナリオの課題に対応する、高解像度の表現と軽量な設計のようなロボット知覚タスクのために提供される。
そこで我々は,高分解能表現を常に維持し,解像度間で情報を繰り返し交換する並列ブランチ構造であるHRG-Netと呼ばれる新しい把握型ビジュアルアーキテクチャを開発した。
広範な実験により、この2つの設計が視覚ベースの把持の精度を効果的に向上し、ネットワークトレーニングを加速できることが確認された。
実際の物理環境における比較実験のシリーズをYouTubeで紹介する。
関連論文リスト
- T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Visual Odometry with Neuromorphic Resonator Networks [9.903137966539898]
視覚オドメトリー(英語: Visual Odometry, VO)は、視覚センサを用いた移動ロボットの自走を推定する手法である。
ニューロモルフィックハードウェアは多くのビジョンとAI問題に対する低消費電力のソリューションを提供する。
本稿では,2次元VOタスクにおける最先端性能を実現するモジュール型ニューロモルフィックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:57:03Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Recurrent Vision Transformer for Solving Visual Reasoning Problems [13.658244210412352]
畳み込みニューラルネットワーク(CNN)のためのRecurrent Vision Transformer(RViT)モデルを導入する。
このネットワークは、リカレント接続の影響と推論タスクにおける空間的注意の影響により、同一の視覚的推論問題に対する競合的な結果が得られる。
包括的アブレーション研究により、ハイブリッドCNN + Transformerアーキテクチャの重要性が確認された。
論文 参考訳(メタデータ) (2021-11-29T15:01:09Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - WDN: A Wide and Deep Network to Divide-and-Conquer Image
Super-resolution [0.0]
分割と征服は確立されたアルゴリズム設計パラダイムであり、様々な問題を効率的に解くことが証明されている。
本稿では,画像超解像の問題を複数のサブプロブレムに分割し,ニューラルネットワークの助けを借りて解く手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T06:15:11Z) - CrossTransformers: spatially-aware few-shot transfer [92.33252608837947]
非常に少ないデータを持つ新しいタスクを考えると、現代の視覚システムは驚くほど急速に低下する。
現代の視覚システムを支えるニューラルネットワーク表現が、どのようにして監督の崩壊にさらされているかを示す。
そこで我々は,伝達を良くする汎用的な機能を促進するために,自己指導型学習を提案する。
論文 参考訳(メタデータ) (2020-07-22T15:37:08Z) - Cross-View Image Synthesis with Deformable Convolution and Attention
Mechanism [29.528402825356398]
本稿では、変形可能な畳み込みとアテンション機構に基づくGAN(Generative Adversarial Networks)を用いて、クロスビュー画像合成の問題を解決することを提案する。
シーンの外観や意味情報を他の視点から理解し、変換することは困難であり、U-netネットワークにおける変形畳み込みを用いて、異なるスケールのオブジェクトの特徴を抽出するネットワークの能力を向上させる。
論文 参考訳(メタデータ) (2020-07-20T03:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。