論文の概要: VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion
- arxiv url: http://arxiv.org/abs/2411.12520v1
- Date: Tue, 19 Nov 2024 14:07:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:35:53.272794
- Title: VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion
- Title(参考訳): VMGNet:マルチスケール機能融合によるVMambaに基づく低計算複雑ロボットグラフピングネットワーク
- Authors: Yuhao Jin, Qizhong Gao, Xiaohui Zhu, Yong Yue, Eng Gee Lim, Yuqing Chen, Prudence Wong, Yijie Chu,
- Abstract要約: ロボットグルーピングのための低計算量・高精度モデルVMGNetを提案する。
まず,視覚状態空間をロボットの把握領域に導入し,線形計算複雑性を実現する。
モデルの精度を向上させるために,効率よく軽量なマルチスケール機能融合モジュールを提案する。
- 参考スコア(独自算出の注目度): 7.989204276876628
- License:
- Abstract: While deep learning-based robotic grasping technology has demonstrated strong adaptability, its computational complexity has also significantly increased, making it unsuitable for scenarios with high real-time requirements. Therefore, we propose a low computational complexity and high accuracy model named VMGNet for robotic grasping. For the first time, we introduce the Visual State Space into the robotic grasping field to achieve linear computational complexity, thereby greatly reducing the model's computational cost. Meanwhile, to improve the accuracy of the model, we propose an efficient and lightweight multi-scale feature fusion module, named Fusion Bridge Module, to extract and fuse information at different scales. We also present a new loss function calculation method to enhance the importance differences between subtasks, improving the model's fitting ability. Experiments show that VMGNet has only 8.7G Floating Point Operations and an inference time of 8.1 ms on our devices. VMGNet also achieved state-of-the-art performance on the Cornell and Jacquard public datasets. To validate VMGNet's effectiveness in practical applications, we conducted real grasping experiments in multi-object scenarios, and VMGNet achieved an excellent performance with a 94.4% success rate in real-world grasping tasks. The video for the real-world robotic grasping experiments is available at https://youtu.be/S-QHBtbmLc4.
- Abstract(参考訳): ディープラーニングベースのロボットグルーピング技術は、強い適応性を示しているが、その計算複雑性も著しく増加しており、高いリアルタイム要求のあるシナリオには適していない。
そこで本研究では,ロボットグルーピングのための低計算量・高精度モデルVMGNetを提案する。
ロボットの把握領域に視覚状態空間を導入して線形計算複雑性を実現することにより,モデルの計算コストを大幅に削減する。
一方,モデルの精度を向上させるために,Fusion Bridge Moduleと呼ばれる,効率的かつ軽量なマルチスケール機能融合モジュールを提案する。
また,サブタスク間の重要度を向上し,モデルの適合性を向上させるために,新たな損失関数計算法を提案する。
実験の結果,VMGNetは8.7G浮動小数点演算と8.1msの推測時間しか持たないことがわかった。
VMGNetは、CornelとJacquardの公開データセット上での最先端のパフォーマンスも達成した。
実運用におけるVMGNetの有効性を検証するため,マルチオブジェクトシナリオで実把握実験を行い,実世界の把握タスクにおいて94.4%の成功率で優れた性能を達成した。
実際のロボットグリップ実験のビデオはhttps://youtu.be/S-QHBtbmLc4.comで公開されている。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。
我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。
実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-03-15T02:48:47Z) - Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。
本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。
MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。
我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文 参考訳(メタデータ) (2023-06-21T16:52:20Z) - Exploring the Performance and Efficiency of Transformer Models for NLP
on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。
トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。
この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2023-06-20T10:15:01Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Improving Semiconductor Device Modeling for Electronic Design Automation
by Machine Learning Techniques [6.170514965470266]
本稿では,変分オートエンコーダを用いたMLに基づくデバイスモデリング改善のための自己拡張戦略を提案する。
提案手法の有効性を実証するために,ガリウム窒化物デバイスにおけるオーミック抵抗値に対するディープニューラルネットワークに基づく予測タスクに適用する。
論文 参考訳(メタデータ) (2021-05-25T00:52:44Z) - FastSal: a Computationally Efficient Network for Visual Saliency
Prediction [7.742198347952173]
我々は、MobileNetV2が視覚的サリエンシモデルに優れたバックボーンを作り、複雑なデコーダを使わずに有効であることを示す。
また,DeepGaze IIのような計算コストの高いモデルからの知識伝達は,ラベルのないデータセットを擬似ラベリングすることで実現できることを示す。
論文 参考訳(メタデータ) (2020-08-25T16:32:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。