論文の概要: Toward a Plug-and-Play Vision-Based Grasping Module for Robotics
- arxiv url: http://arxiv.org/abs/2310.04349v2
- Date: Tue, 12 Mar 2024 15:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-14 01:34:09.730537
- Title: Toward a Plug-and-Play Vision-Based Grasping Module for Robotics
- Title(参考訳): ロボット用プラグイン・アンド・プレイ・ビジョン・ベース・グラッピングモジュールを目指して
- Authors: Fran\c{c}ois H\'el\'enon, Johann Huber, Fa\"iz Ben Amar and St\'ephane
Doncieux
- Abstract要約: 本稿では,複数のマニピュレータ間で容易に移動可能な視覚ベースの把握フレームワークを提案する。
このフレームワークは、オープンループ把持軌跡の多様なレパートリーを生成し、把握の多様性を維持しつつ、適応性を向上させる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advancements in AI for robotics, grasping remains a partially
solved challenge, hindered by the lack of benchmarks and reproducibility
constraints. This paper introduces a vision-based grasping framework that can
easily be transferred across multiple manipulators. Leveraging
Quality-Diversity (QD) algorithms, the framework generates diverse repertoires
of open-loop grasping trajectories, enhancing adaptability while maintaining a
diversity of grasps. This framework addresses two main issues: the lack of an
off-the-shelf vision module for detecting object pose and the generalization of
QD trajectories to the whole robot operational space. The proposed solution
combines multiple vision modules for 6DoF object detection and tracking while
rigidly transforming QD-generated trajectories into the object frame.
Experiments on a Franka Research 3 arm and a UR5 arm with a SIH Schunk hand
demonstrate comparable performance when the real scene aligns with the
simulation used for grasp generation. This work represents a significant stride
toward building a reliable vision-based grasping module transferable to new
platforms, while being adaptable to diverse scenarios without further training
iterations.
- Abstract(参考訳): ロボット工学におけるAIの最近の進歩にもかかわらず、ベンチマークや再現性制約の欠如によって、把握は部分的に解決された課題である。
本稿では,複数のマニピュレータ間で容易に移動可能な視覚ベースの把握フレームワークを提案する。
qd(quality-diversity)アルゴリズムを活用することで、オープンループ把持軌跡の多様なレパートリーを生成し、多種多様な把持を維持しながら適応性を高める。
本フレームワークは,物体のポーズを検出するオフザシェルフ視覚モジュールの欠如と,ロボット全体の動作空間へのQDトラジェクトリの一般化という2つの問題に対処する。
提案手法は、6DoFオブジェクト検出と追跡のための複数の視覚モジュールを組み合わせるとともに、QD生成軌道を厳格にオブジェクトフレームに変換する。
Franka Research 3 アームと SIH Schunk ハンドによるUR5 アームの実験では、実際のシーンがグルーピング生成に使用されるシミュレーションと一致した場合に同等の性能を示す。
この作業は、新しいプラットフォームに転送可能な、信頼性の高い視覚ベースの把握モジュールの構築に向けた重要な一歩であり、イテレーションをさらにトレーニングすることなく、さまざまなシナリオに適応可能である。
関連論文リスト
- MultiEditor: Controllable Multimodal Object Editing for Driving Scenarios Using 3D Gaussian Splatting Priors [4.4714079610450765]
MultiEditorは、イメージとLiDARポイントクラウドを共同で編集するように設計された、デュアルブランチの潜伏拡散フレームワークである。
本稿では,モーダル間の相互誘導を適応的に実現する,深度誘導型変形可能なクロスモーダル条件モジュールを提案する。
実験により、MultiEditorは、視覚的および幾何学的忠実度、制御可能性の編集、モダリティ間の整合性において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-07-29T14:42:52Z) - DINO-CoDT: Multi-class Collaborative Detection and Tracking with Vision Foundation Models [11.34839442803445]
道路利用者を対象とした多クラス協調検出・追跡フレームワークを提案する。
まず,大域的空間注意融合(GSAF)モジュールを用いた検出器を提案する。
次に,視覚基盤モデルを用いた視覚的セマンティクスを活用し,IDSW(ID SWitch)エラーを効果的に低減するトラックレットRe-IDentification(REID)モジュールを提案する。
論文 参考訳(メタデータ) (2025-06-09T02:49:10Z) - Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。
オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。
提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文 参考訳(メタデータ) (2025-06-02T17:57:06Z) - Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。
従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。
仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文 参考訳(メタデータ) (2025-05-08T15:28:09Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - LEGO-Motion: Learning-Enhanced Grids with Occupancy Instance Modeling for Class-Agnostic Motion Prediction [12.071846486955627]
本稿ではLEGO-Motionという,クラスに依存しない動作予測タスクのための新しい占有状況モデリングフレームワークを提案する。
本モデルは,(1)BEVエンコーダ,(2)Interaction-Augmented Instance,(3)インスタンス強化型BEVからなる。
提案手法は最先端の性能を達成し,既存手法より優れている。
論文 参考訳(メタデータ) (2025-03-10T14:26:21Z) - Spatially Visual Perception for End-to-End Robotic Learning [33.490603706207075]
環境変動に対処するために3次元空間表現を利用する映像ベース空間認識フレームワークを提案する。
提案手法は,新しい画像拡張手法であるAugBlenderと,インターネット規模のデータに基づいてトレーニングされた最先端のモノクロ深度推定モデルを統合する。
論文 参考訳(メタデータ) (2024-11-26T14:23:42Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。