Fugu-MT 論文翻訳(概要): VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion

論文の概要: VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion

arxiv url: http://arxiv.org/abs/2411.12520v1
Date: Tue, 19 Nov 2024 14:07:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.121334
Title: VMGNet: A Low Computational Complexity Robotic Grasping Network Based on VMamba with Multi-Scale Feature Fusion
Title（参考訳）: VMGNet:マルチスケール機能融合によるVMambaに基づく低計算複雑ロボットグラフピングネットワーク
Authors: Yuhao Jin, Qizhong Gao, Xiaohui Zhu, Yong Yue, Eng Gee Lim, Yuqing Chen, Prudence Wong, Yijie Chu,
Abstract要約: ロボットグルーピングのための低計算量・高精度モデルVMGNetを提案する。まず,視覚状態空間をロボットの把握領域に導入し,線形計算複雑性を実現する。モデルの精度を向上させるために,効率よく軽量なマルチスケール機能融合モジュールを提案する。
参考スコア（独自算出の注目度）: 7.989204276876628
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While deep learning-based robotic grasping technology has demonstrated strong adaptability, its computational complexity has also significantly increased, making it unsuitable for scenarios with high real-time requirements. Therefore, we propose a low computational complexity and high accuracy model named VMGNet for robotic grasping. For the first time, we introduce the Visual State Space into the robotic grasping field to achieve linear computational complexity, thereby greatly reducing the model's computational cost. Meanwhile, to improve the accuracy of the model, we propose an efficient and lightweight multi-scale feature fusion module, named Fusion Bridge Module, to extract and fuse information at different scales. We also present a new loss function calculation method to enhance the importance differences between subtasks, improving the model's fitting ability. Experiments show that VMGNet has only 8.7G Floating Point Operations and an inference time of 8.1 ms on our devices. VMGNet also achieved state-of-the-art performance on the Cornell and Jacquard public datasets. To validate VMGNet's effectiveness in practical applications, we conducted real grasping experiments in multi-object scenarios, and VMGNet achieved an excellent performance with a 94.4% success rate in real-world grasping tasks. The video for the real-world robotic grasping experiments is available at https://youtu.be/S-QHBtbmLc4.
Abstract（参考訳）: ディープラーニングベースのロボットグルーピング技術は、強い適応性を示しているが、その計算複雑性も著しく増加しており、高いリアルタイム要求のあるシナリオには適していない。そこで本研究では,ロボットグルーピングのための低計算量・高精度モデルVMGNetを提案する。ロボットの把握領域に視覚状態空間を導入して線形計算複雑性を実現することにより,モデルの計算コストを大幅に削減する。一方,モデルの精度を向上させるために,Fusion Bridge Moduleと呼ばれる,効率的かつ軽量なマルチスケール機能融合モジュールを提案する。また,サブタスク間の重要度を向上し,モデルの適合性を向上させるために,新たな損失関数計算法を提案する。実験の結果,VMGNetは8.7G浮動小数点演算と8.1msの推測時間しか持たないことがわかった。 VMGNetは、CornelとJacquardの公開データセット上での最先端のパフォーマンスも達成した。実運用におけるVMGNetの有効性を検証するため,マルチオブジェクトシナリオで実把握実験を行い,実世界の把握タスクにおいて94.4%の成功率で優れた性能を達成した。実際のロボットグリップ実験のビデオはhttps://youtu.be/S-QHBtbmLc4.comで公開されている。

関連論文リスト

Pangu Ultra MoE: How to Train Your Big MoE on Ascend NPUs [111.69640966866059]
ミキチャー・オブ・エキスパート(MoE)と1兆近いパラメータを持つ疎大言語モデル(LLM)が、最も有能な言語モデルの領域を支配している。本稿では,Ascend NPU上でそのようなスケールを利用するレシピを明らかにすることを目的としている。主な目的は、動的スパースモデル構造下でのコンピューティングリソースのより良い使用と、実際のハードウェアで期待されるパフォーマンス向上の実現である。
論文参考訳（メタデータ） (2025-05-07T15:46:36Z)
Comparative Analysis of Lightweight Deep Learning Models for Memory-Constrained Devices [0.0]
CIFAR-10、CIFAR-100、Tiny ImageNetの3つの異なるデータセットで、最先端の5つのアーキテクチャがベンチマークされている。モデルは、分類精度、推測時間、浮動小数点演算(FLOP)、モデルサイズという4つの重要なパフォーマンス指標を用いて評価される。
論文参考訳（メタデータ） (2025-05-06T08:36:01Z)
ALWNN Empowered Automatic Modulation Classification: Conquering Complexity and Scarce Sample Conditions [24.59462798452397]
本稿では、適応軽量ウェーブレットニューラルネットワーク(ALWNN)とマルチショットフレームワーク(MALWNN)に基づく自動変調分類モデルを提案する。 ALWNNモデルは適応ウェーブレットニューラルネットワークと深度分離可能な畳み込みを統合することで、モデルパラメータの数と計算複雑性を低減する。 MALWNNの実験では、他のアルゴリズムと比較して、数ショットの学習シナリオでは優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2025-03-24T06:14:33Z)
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-03-19T16:07:04Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文参考訳（メタデータ） (2024-10-21T17:58:20Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
EfficientVMamba: Atrous Selective Scan for Light Weight Visual Mamba [19.062950348441426]
本研究は、軽量モデル設計における視覚状態空間モデルの可能性を探究し、EfficientVMambaと呼ばれる新しい効率的なモデル変種を導入することを提案する。我々のEfficientVMambaは、グローバルおよびローカルの両方の表現機能を利用するように設計されたビルディングブロックを構成する効率的なスキップサンプリングにより、アトラスベースの選択的スキャン手法を統合する。実験の結果,EfficientVMambaは計算複雑性を縮小し,様々な視覚タスクの競合結果が得られることがわかった。
論文参考訳（メタデータ） (2024-03-15T02:48:47Z)
Efficient Deep Spiking Multi-Layer Perceptrons with Multiplication-Free Inference [13.924924047051782]
スパイキングニューラルネットワーク(SNN)の深部畳み込みアーキテクチャは、画像分類性能を大幅に向上し、計算負荷を低減した。本研究は、MLP(Multi-Layer Perceptrons)の進歩からインスピレーションを得て、新しい経路を探求する。 MFIの互換性を維持するためにバッチ正規化を用いる革新的なスパイクアーキテクチャを提案する。我々は,グローバルな受容場と局所的な特徴抽出を効果的に組み合わせた,効率的なマルチステージスパイクネットワークを構築した。
論文参考訳（メタデータ） (2023-06-21T16:52:20Z)
Exploring the Performance and Efficiency of Transformer Models for NLP on Mobile Devices [3.809702129519641]
新しいディープニューラルネットワーク(DNN)アーキテクチャとアプローチが数年毎に登場し、この分野の進歩が加速している。トランスフォーマーは、AIタスク全体で新しいレベルの精度を達成した比較的新しいモデルファミリである。この作業は、Transformersのオンデバイス実行の現在の状態を調べて、このギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2023-06-20T10:15:01Z)
MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文参考訳（メタデータ） (2021-12-29T17:23:24Z)
MoEfication: Conditional Computation of Transformer Models for Efficient Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文参考訳（メタデータ） (2021-10-05T02:14:38Z)
Improving Semiconductor Device Modeling for Electronic Design Automation by Machine Learning Techniques [6.170514965470266]
本稿では,変分オートエンコーダを用いたMLに基づくデバイスモデリング改善のための自己拡張戦略を提案する。提案手法の有効性を実証するために,ガリウム窒化物デバイスにおけるオーミック抵抗値に対するディープニューラルネットワークに基づく予測タスクに適用する。
論文参考訳（メタデータ） (2021-05-25T00:52:44Z)
FastSal: a Computationally Efficient Network for Visual Saliency Prediction [7.742198347952173]
我々は、MobileNetV2が視覚的サリエンシモデルに優れたバックボーンを作り、複雑なデコーダを使わずに有効であることを示す。また,DeepGaze IIのような計算コストの高いモデルからの知識伝達は,ラベルのないデータセットを擬似ラベリングすることで実現できることを示す。
論文参考訳（メタデータ） (2020-08-25T16:32:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。