論文の概要: MultiGraspNet: A Multitask 3D Vision Model for Multi-gripper Robotic Grasping
- arxiv url: http://arxiv.org/abs/2602.06504v1
- Date: Fri, 06 Feb 2026 08:56:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.303788
- Title: MultiGraspNet: A Multitask 3D Vision Model for Multi-gripper Robotic Grasping
- Title(参考訳): MultiGraspNet:マルチグリップロボットグラスピングのためのマルチタスク3次元視覚モデル
- Authors: Stephany Ortuno-Chanelo, Paolo Rabino, Enrico Civitelli, Tatiana Tommasi, Raffaello Camoriano,
- Abstract要約: MultiGraspNetは、並列グリップと真空グリップの同時ポーズを統一フレームワーク内で予測する新しいマルチタスク3Dディープラーニング手法である。
我々は、単一アームのマルチグリッパーロボットで実世界の実験を行い、我々のアプローチが真空ベースラインより優れていることを示す。
- 参考スコア(独自算出の注目度): 8.558823208942277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-based models for robotic grasping automate critical, repetitive, and draining industrial tasks. Existing approaches are typically limited in two ways: they either target a single gripper and are potentially applied on costly dual-arm setups, or rely on custom hybrid grippers that require ad-hoc learning procedures with logic that cannot be transferred across tasks, restricting their general applicability. In this work, we present MultiGraspNet, a novel multitask 3D deep learning method that predicts feasible poses simultaneously for parallel and vacuum grippers within a unified framework, enabling a single robot to handle multiple end effectors. The model is trained on the richly annotated GraspNet-1Billion and SuctionNet-1Billion datasets, which have been aligned for the purpose, and generates graspability masks quantifying the suitability of each scene point for successful grasps. By sharing early-stage features while maintaining gripper-specific refiners, MultiGraspNet effectively leverages complementary information across grasping modalities, enhancing robustness and adaptability in cluttered scenes. We characterize MultiGraspNet's performance with an extensive experimental analysis, demonstrating its competitiveness with single-task models on relevant benchmarks. We run real-world experiments on a single-arm multi-gripper robotic setup showing that our approach outperforms the vacuum baseline, grasping 16% percent more seen objects and 32% more of the novel ones, while obtaining competitive results for the parallel task.
- Abstract(参考訳): ロボットの把握のためのビジョンベースのモデルは、産業タスクのクリティカル、反復、排水を自動化する。
既存のアプローチは、通常2つの方法で制限される: 単一のグリップをターゲットとして、コストのかかるデュアルアームのセットアップに適用されるか、あるいはタスク間で転送できないロジックを備えたアドホックな学習手順を必要とする独自のハイブリッドグリップに頼っている。
本研究では,マルチタスク型3次元深層学習手法であるMultiGraspNetを提案する。
このモデルは、この目的のために調整されたリッチな注釈付きGraspNet-1BillionデータセットとSuctionNet-1Billionデータセットに基づいて訓練され、各シーンポイントの適合性を定量化するための把握性マスクを生成する。
グリップパー固有のリファインダーを維持しながら、アーリーステージの機能を共有することで、MultiGraspNetは、グリップのモダリティを越えて補完的な情報を効果的に活用し、散在するシーンにおける堅牢性と適応性を向上する。
我々は,MultiGraspNetの性能を実験的に評価し,関連するベンチマーク上での単一タスクモデルとの競合性を実証した。
我々は、シングルアームのマルチグリッパーロボットで実世界の実験を行い、我々のアプローチが真空ベースラインよりも優れており、16%のオブジェクトと32%の新規なオブジェクトを把握でき、同時に並列タスクの競合的な結果が得られることを示した。
関連論文リスト
- EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation [8.214084596349744]
EchoMimicV3はマルチタスクとマルチモーダルアニメーションを統合する効率的なフレームワークである。
最小のモデルサイズが13億のEchoMimicV3は、定量評価と定性評価の両方で競合性能を達成する。
論文 参考訳(メタデータ) (2025-07-05T05:36:26Z) - RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - DMFC-GraspNet: Differentiable Multi-Fingered Robotic Grasp Generation in
Cluttered Scenes [22.835683657191936]
マルチフィンガーロボットグリップは、複雑なオブジェクト操作を行う可能性がある。
マルチフィンガーロボットグリップの現在の技術は、推論時間毎に1つのグリップしか予測しないことが多い。
本稿では,この課題に対処するための3つの主要なコントリビューションを持つ,微分可能なマルチフィンガーグリップ生成ネットワーク(DMFC-GraspNet)を提案する。
論文 参考訳(メタデータ) (2023-08-01T11:21:07Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。