論文の概要: MVB-Grasp: Minimum-Volume-Box Filtering of Diffusion-based Grasps for Frontal Manipulation
- arxiv url: http://arxiv.org/abs/2605.09672v1
- Date: Sun, 10 May 2026 17:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.363893
- Title: MVB-Grasp: Minimum-Volume-Box Filtering of Diffusion-based Grasps for Frontal Manipulation
- Title(参考訳): MVB-Grasp:フロンティアマニピュレーションのための拡散型グラスプの最小Volume-Boxフィルタ
- Authors: Bibek Poudel, Abdul Basit, Muhammad Shafique,
- Abstract要約: 最先端の6-DoFグルーピングジェネレータは、制約されたワークスペースを持つ低コストマニピュレータのフロントグルーピングシナリオで苦労する。
拡散型グリップ生成に先立ってMVBB(Minimum Volume Bounding Box)幾何を注入する新しいグリップスタックであるMVB-Graspを提案する。
We implement MVB-Grasp on a Unitree Z1 arm with a Intel RealSense D405 camera, YOLOv8 object detection, GraspGen for candidate generation, MVBB fit, inverse-kinematics trajectory planning。
- 参考スコア(独自算出の注目度): 4.243597126397549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art 6-DoF grasp generators excel on tabletop benchmarks with overhead cameras but struggle in frontal grasping scenarios on low-cost manipulators with constrained workspaces, where kinematic limits and approach-direction constraints cause high failure rates. We address this challenge for the Unitree Z1 arm by proposing MVB-Grasp, a novel grasping stack that injects a Minimum Volume Bounding Box (MVBB) geometric prior into diffusion-based grasp generation to dramatically improve success rates in frontal, workspace-constrained settings. Our key scientific contributions are threefold: (i) an MVBB-based geometric filter that exploits oriented bounding-box face normals to reject grasps approaching through the table or misaligned with accessible object faces in O(N) time; (ii) a combined re-scoring function that blends learned discriminator scores with face-alignment geometry α=0.85, specifically calibrated for the Z1's frontal workspace and kinematic constraints; and (iii) a systematic MuJoCo evaluation protocol measuring grasp success across object types, distances, lateral positions, and pitch orientations to validate embodiment-specific performance. We implement MVB-Grasp on a Unitree Z1 arm with an Intel RealSense D405 camera, integrating YOLOv8 object detection, GraspGen for candidate generation, Principal Component Analysis (PCA)-based MVBB fitting, and inverse-kinematics trajectory planning. Experiments across 81 MuJoCo episodes (cylinder, asymmetric box, waterbottle) demonstrate that MVB-Grasp achieves 59.3% success versus 24.7% for vanilla GraspGen, a 2.4x improvement, by filtering geometrically infeasible candidates and prioritizing face-aligned grasps suited to the Z1's frontal approach constraints. Real-world trials confirm that the MVBB prior substantially improves grasp reliability on constrained, low-cost manipulators without requiring model retraining.
- Abstract(参考訳): 最先端の6-DoFグルーピングジェネレータは、オーバーヘッドカメラを備えたテーブルトップベンチマークで優れているが、作業空間に制約のある低コストマニピュレータのフロントグルーピングシナリオで苦労している。
この課題に対処するために、MVB-Graspは、最小体積境界ボックス(MVBB)を拡散型グリップ生成に注入し、前頭部、ワークスペースに制約された設定における成功率を劇的に向上させる新しいグリップスタックである。
私たちの重要な科学的貢献は3倍です。
i) MVBBベースの幾何フィルタで,表に接近するグリップを拒否したり,O(N)時間内にアクセス可能な物体の顔に不一致を生じさせる。
(ii) 学習した判別器のスコアと顔配向幾何学α=0.85とをブレンドし、特にZ1の前部ワークスペースと運動性制約を校正する再構成関数
3) 物体の種類, 距離, 横位置, ピッチ方向を把握し, 具体的性能を検証した MuJoCo 評価プロトコル。
We implement MVB-Grasp on a Unitree Z1 arm with a Intel RealSense D405 camera, YOLOv8 object detection, GraspGen for candidate generation, principal Component Analysis (PCA)-based MVBB fit, inverse-kinematics trajectory planning。
81のMuJoCoエピソード(シリンダー、非対称ボックス、ウォーターボトル)での実験では、MVB-Graspが59.3%成功し、バニラGraspGenは24.7%改善した。
現実の試験では、MVBBはモデル再訓練を必要とせず、制約のある低コストマニピュレータの把握信頼性を大幅に向上させる。
関連論文リスト
- Adaptive Sensing beyond Non-Adaptive Information Limits: End-to-End Co-Design of Geometry, Policy, and Inference [0.0]
本稿では,連続ハードウェア形状に対する単一最適化とベルマン最適適応測定ポリシーを提案する。
3つのケーススタディで、共同DPはコミュニティの自然なベースラインを大きく上回っている。
ハードウェアが一度設計されているが、そのポリシーがデバイスの寿命を延ばすあらゆるセンサーにとって、ハードウェアとポリシーの共同最適化は最小限の原則である。
論文 参考訳(メタデータ) (2026-04-28T04:02:17Z) - Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer [55.9892973179428]
MoTokは、セマンティックな抽象化をきめ細かな再構築から切り離す離散モーショントークンである。
また,HumanML3Dでは,トークンの6分の1しか使用せず,MaskControl上での制御性と忠実度を大幅に向上する。
論文 参考訳(メタデータ) (2026-03-19T17:59:51Z) - LeWorldModel: Stable End-to-End Joint-Embedding Predictive Architecture from Pixels [49.35636088613484]
JEPA(Joint Embedding Predictive Architectures)は、コンパクトな潜在空間で世界モデルを学習するための魅力的なフレームワークを提供する。
最初のJEPAであるLeModelWorldを紹介します。
数時間で1つのGPU上で15万のパラメータをトレーニングできるため、LeWMはファンデーションモデルベースの世界モデルよりも48倍高速に計画している。
論文 参考訳(メタデータ) (2026-03-13T19:48:14Z) - LAF-YOLOv10 with Partial Convolution Backbone, Attention-Guided Feature Pyramid, Auxiliary P2 Head, and Wise-IoU Loss for Small Object Detection in Drone Aerial Imagery [0.0]
無人航空機は、監視、交通監視、災害対応のための主要なセンシングプラットフォームとして機能する。
現在の検出器は、わずか数ピクセルのターゲット、散らかった背景、重い閉塞、厳格な計算予算など、UAV固有の課題に対処している。
この研究は、YOLOv10n上に構築されたRAF-YOLOv10を紹介し、ドローン画像の小さな物体検出を改善するために4つの補完技術を統合する。
論文 参考訳(メタデータ) (2026-02-13T18:23:54Z) - DISF: Disentangled Iterative Surface Fitting for Contact-stable Grasp Planning with Grasp Pose Alignment to the Object Center of Mass [8.61285912675644]
幾何学的整合性を維持しつつ,接触安定性を両立させる新しい表面整合アルゴリズムを提案する。
人間のつかみ動作にインスパイアされた本手法は,グリップポーズ最適化を3段階に分割する。
我々は,3つのロボットプラットフォーム上でのシミュレーションと実環境実行におけるアプローチを検証する。
論文 参考訳(メタデータ) (2025-12-31T01:15:09Z) - High-dimensional Mean-Field Games by Particle-based Flow Matching [18.129646808071893]
平均場ゲーム(MFGs)は相互作用エージェントの連続体を持つ系のナッシュ平衡を研究する。
広い適用性にもかかわらず、高次元のMFGを解くことは、基本的な計算的および解析的障害のため重要な課題である。
本稿では,高次元MFGに対処する粒子ベースディープフローマッチング(FM)法を提案する。
論文 参考訳(メタデータ) (2025-12-01T01:04:53Z) - Agentic World Modeling for 6G: Near-Real-Time Generative State-Space Reasoning [70.56067503630486]
第6世代(6G)インテリジェンスは、流動的なトークン予測ではなく、想像と選択の能力を校正している、と我々は主張する。
We showed that WM-MS3M cuts mean absolute error (MAE) by 1.69% vs MS3M with 32% less parameters and similar latency, and achieve a 35-80% lower root mean squared error (RMSE) than attention/hybrid baselines with 2.3-4.1x faster inference。
論文 参考訳(メタデータ) (2025-11-04T17:22:22Z) - Online Estimation of Table-Top Grown Strawberry Mass in Field Conditions with Occlusions [2.736203444988168]
本研究では、RGB-Dセンシングとディープラーニングを統合したビジョンベースパイプラインを提案し、非破壊的、リアルタイム、オンラインの質量推定を可能にする。
実験では、イチゴが8.11%、閉塞例が10.47%の質量推定誤差が示された。
論文 参考訳(メタデータ) (2025-07-31T12:10:23Z) - DIMM: Decoupled Multi-hierarchy Kalman Filter for 3D Object Tracking [50.038098341549095]
状態推定は、高い操作性を持つ3次元物体追跡において困難である。
本稿では,各方向の異なる動きモデルから推定される推定を効果的に組み合わせる新しいフレームワークであるDIMMを提案する。
DIMMは既存の状態推定手法のトラッキング精度を31.61%99.23%向上させる。
論文 参考訳(メタデータ) (2025-05-18T10:12:41Z) - Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image
Translation [56.44946660061753]
本稿では,最大空間摂動整合(MSPC)と呼ばれる普遍正規化手法を提案する。
MSPCは空間摂動関数(T)と変換演算子(G)を可換(TG = GT)に強制する。
提案手法は,ほとんどのI2Iベンチマークにおいて最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-03-23T19:59:04Z) - ACFD: Asymmetric Cartoon Face Detector [72.60983975604145]
ACFDは2020年のiCartoon Face Challengeで1位を獲得した。
ACFDは、モデルサイズ200MB、画像あたりの推測時間50ms、事前訓練されたモデルなしで、2020年のiCartoon Face Challengeの1位を獲得しました。
論文 参考訳(メタデータ) (2020-07-02T05:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。