論文の概要: GraspMamba: A Mamba-based Language-driven Grasp Detection Framework with Hierarchical Feature Learning
- arxiv url: http://arxiv.org/abs/2409.14403v1
- Date: Sun, 22 Sep 2024 11:45:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:52:52.927107
- Title: GraspMamba: A Mamba-based Language-driven Grasp Detection Framework with Hierarchical Feature Learning
- Title(参考訳): GraspMamba: 階層的特徴学習を備えた言語駆動型Grasp検出フレームワーク
- Authors: Huy Hoang Nguyen, An Vuong, Anh Nguyen, Ian Reid, Minh Nhat Vu,
- Abstract要約: この課題に対処するために,Mambaビジョンと階層的特徴融合を用いた言語駆動型グリップ検出手法であるGraspMambaを紹介した。
GraspMambaは、複数のスケールで視覚と言語の特徴を抽出し、堅牢なパフォーマンスと高速な推論時間を提供する、最初のMambaベースのグリップ検出モデルである。
- 参考スコア(独自算出の注目度): 9.168273931848173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grasp detection is a fundamental robotic task critical to the success of many industrial applications. However, current language-driven models for this task often struggle with cluttered images, lengthy textual descriptions, or slow inference speed. We introduce GraspMamba, a new language-driven grasp detection method that employs hierarchical feature fusion with Mamba vision to tackle these challenges. By leveraging rich visual features of the Mamba-based backbone alongside textual information, our approach effectively enhances the fusion of multimodal features. GraspMamba represents the first Mamba-based grasp detection model to extract vision and language features at multiple scales, delivering robust performance and rapid inference time. Intensive experiments show that GraspMamba outperforms recent methods by a clear margin. We validate our approach through real-world robotic experiments, highlighting its fast inference speed.
- Abstract(参考訳): グラフ検出は、多くの産業アプリケーションの成功に欠かせない基本的なロボット作業である。
しかしながら、このタスクの現在の言語駆動モデルは、乱雑なイメージ、長いテキスト記述、遅い推論速度に悩まされることが多い。
この課題に対処するために,Mambaビジョンと階層的特徴融合を用いた言語駆動型グリップ検出手法であるGraspMambaを紹介した。
本手法は,マンバをベースとしたバックボーンのリッチな視覚的特徴とテキスト情報を活用することにより,マルチモーダルな特徴の融合を効果的に促進する。
GraspMambaは、複数のスケールで視覚と言語の特徴を抽出し、堅牢なパフォーマンスと高速な推論時間を提供する、最初のMambaベースのグリップ検出モデルである。
集中的な実験により、GraspMambaは最近の手法よりも明確なマージンで優れていることが示された。
実際のロボット実験を通じて、我々のアプローチを検証し、その高速な推論速度を強調します。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Mamba Fusion: Learning Actions Through Questioning [12.127052057927182]
ビデオ言語モデル(VLM)は、多様なタスクを一般化し、学習を強化するために言語キューを使用するために不可欠である。
本稿では,長距離依存関係を効率的にキャプチャし,視覚と言語データの共同表現を学習する新しいモデルであるMambaVLを紹介する。
MambaVLは、Epic-Kitchens-100データセット上でのアクション認識における最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-17T19:36:37Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Language-driven Grasp Detection with Mask-guided Attention [10.231956034184265]
マスク誘導型注目を用いた言語駆動型グリップ検出手法を提案する。
提案手法では,視覚データ,セグメンテーションマスク機能,自然言語命令を統合した。
我々の研究は、言語駆動型把握検出のための新しいフレームワークを導入し、言語駆動型ロボットアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2024-07-29T10:55:17Z) - ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2 [4.30176340351235]
本稿では,マルチモーダル言語モデルであるML-Mambaを紹介する。
トランスフォーマーベースのバックボーンを事前訓練したMamba-2モデルに置き換え、マルチモーダル学習に2次元視覚選択的走査機構を統合する方法を模索する。
論文 参考訳(メタデータ) (2024-07-29T09:38:15Z) - Lightweight Language-driven Grasp Detection using Conditional Consistency Model [10.254392362201308]
本稿では,軽量拡散モデルの概念を活用する言語駆動型グリップ検出のための新しい手法を提案する。
本手法は,視覚情報やテキスト情報を効果的に符号化し,より正確で多目的な把握位置決めを可能にする。
実世界におけるロボット実験における本手法の有効性を検証し,その高速推論能力を実証する。
論文 参考訳(メタデータ) (2024-07-25T11:39:20Z) - Visual Mamba: A Survey and New Outlooks [33.90213491829634]
最近の選択的構造化状態空間モデルであるMambaは、ロングシーケンスモデリングにおいて優れている。
2024年1月以降、マンバは多様なコンピュータビジョンタスクに積極的に適用されてきた。
本稿では,200以上の論文を分析し,マンバの視覚的アプローチを概観する。
論文 参考訳(メタデータ) (2024-04-29T16:51:30Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。