論文の概要: Diffusion Suction Grasping with Large-Scale Parcel Dataset
- arxiv url: http://arxiv.org/abs/2502.07238v1
- Date: Tue, 11 Feb 2025 04:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:50.276541
- Title: Diffusion Suction Grasping with Large-Scale Parcel Dataset
- Title(参考訳): 大規模パーセルデータを用いた拡散吸引グラスピング
- Authors: Ding-Tao Huang, Xinyi He, Debei Hua, Dongfang Yu, En-Te Lin, Long Zeng,
- Abstract要約: 提案するParcel-Suction-Datasetは,4億1000万の高精度な吸引把握ポーズを備えた,25万の散布シーンを含む大規模合成データセットである。
このデータセットは、最適吸引グリップの効率的な生成を可能にする新しい幾何サンプリングアルゴリズムによって生成される。
また、条件生成タスクとして、吸引把握予測を再構成する革新的なフレームワークであるDiffusion-Suctionを提案する。
- 参考スコア(独自算出の注目度): 6.112197264635304
- License:
- Abstract: While recent advances in object suction grasping have shown remarkable progress, significant challenges persist particularly in cluttered and complex parcel handling scenarios. Two fundamental limitations hinder current approaches: (1) the lack of a comprehensive suction grasp dataset tailored for parcel manipulation tasks, and (2) insufficient adaptability to diverse object characteristics including size variations, geometric complexity, and textural diversity. To address these challenges, we present Parcel-Suction-Dataset, a large-scale synthetic dataset containing 25 thousand cluttered scenes with 410 million precision-annotated suction grasp poses. This dataset is generated through our novel geometric sampling algorithm that enables efficient generation of optimal suction grasps incorporating both physical constraints and material properties. We further propose Diffusion-Suction, an innovative framework that reformulates suction grasp prediction as a conditional generation task through denoising diffusion probabilistic models. Our method iteratively refines random noise into suction grasp score maps through visual-conditioned guidance from point cloud observations, effectively learning spatial point-wise affordances from our synthetic dataset. Extensive experiments demonstrate that the simple yet efficient Diffusion-Suction achieves new state-of-the-art performance compared to previous models on both Parcel-Suction-Dataset and the public SuctionNet-1Billion benchmark.
- Abstract(参考訳): 近年の物体吸引把握の進歩は顕著な進歩を見せているが、特に乱雑で複雑なパーセル処理のシナリオでは大きな課題が続いている。
1) パーセル操作作業に適した包括的吸引把握データセットの欠如, (2) 大きさのバリエーション, 幾何学的複雑さ, テクスチャ的多様性など,多様な対象特性への適応性が不十分である。
これらの課題に対処するために,4億1000万の精密な吸引把握ポーズを備えた25万の散布シーンを含む大規模合成データセットであるParcel-Suction-Datasetを提案する。
このデータセットは、物理制約と材料特性の両方を取り入れた最適吸引グリップの効率的な生成を可能にする新しい幾何サンプリングアルゴリズムによって生成される。
さらに,拡散確率モデルを記述した条件生成タスクとして,吸引把握予測を再構成する革新的なフレームワークである拡散吸引を提案する。
提案手法は, 点雲観測による視覚条件付き誘導により, ランダムノイズを吸引把握スコアマップに反復的に洗練し, 合成データセットから空間的ポイントワイド・アベイランスを効果的に学習する。
大規模な実験により,Parcel-Suction-Dataset と Public SuctionNet-1Billion ベンチマークの両モデルと比較して, 単純かつ効率的な拡散吸引は, 新たな最先端性能を実現することが示された。
関連論文リスト
- A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。
提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。
また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。
本手法はGAN内の階層層を系統的に探索する。
さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Constrained 6-DoF Grasp Generation on Complex Shapes for Improved Dual-Arm Manipulation [11.048436789482189]
本研究では,任意のジオメトリを持つオブジェクトに一般化した拡散に基づくグリップ生成モデルであるConstrained Grasp Diffusion Fieldsを提案する。
本手法は,複雑なオブジェクトに対して安定なグリップを生成するために一般化できることを示し,特にデュアルアーム操作設定に有用である。
論文 参考訳(メタデータ) (2024-04-06T14:28:01Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Stable Diffusion For Aerial Object Detection [4.014524824655107]
本研究では,空中画像に適した合成データ拡張フレームワークを提案する。
セマンティックギャップを橋渡し、低ランク適応(LORA)で拡散モデルを微調整し、徹底的な再トレーニングを回避し、最後に、背景を持つ合成オブジェクトを構成する Copy-Paste 法を含む。
論文 参考訳(メタデータ) (2023-11-21T04:38:21Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Empowering Diffusion Models on the Embedding Space for Text Generation [38.664533078347304]
埋め込み空間とデノナイジングモデルの両方で直面する最適化課題について検討する。
データ分散は埋め込みにおいて学習可能であり、埋め込み空間の崩壊と不安定なトレーニングにつながる可能性がある。
以上の解析に基づいて,Transformerに基づく埋め込み拡散モデルであるDifformerを提案する。
論文 参考訳(メタデータ) (2022-12-19T12:44:25Z) - Minimizing the Accumulated Trajectory Error to Improve Dataset
Distillation [151.70234052015948]
本稿では,フラットな軌道を求める最適化アルゴリズムを提案する。
合成データに基づいてトレーニングされた重みは、平坦な軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。
本手法はFTD (Flat Trajectory Distillation) と呼ばれ, 勾配整合法の性能を最大4.7%向上させる。
論文 参考訳(メタデータ) (2022-11-20T15:49:11Z) - Adversarial Lagrangian Integrated Contrastive Embedding for Limited Size
Datasets [8.926248371832852]
本研究では,小さなデータセットに対する新しい逆ラグランジアン統合コントラスト埋め込み(ALICE)法を提案する。
提案手法の精度向上とトレーニング収束性を示す。
種々の拡張手法を用いた新しい対角統合コントラストモデルについて検討した。
論文 参考訳(メタデータ) (2022-10-06T23:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。