論文の概要: Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2305.03259v2
- Date: Mon, 8 May 2023 12:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 11:12:07.500945
- Title: Clothes Grasping and Unfolding Based on RGB-D Semantic Segmentation
- Title(参考訳): rgb-d意味セグメンテーションに基づく服の把持と展開
- Authors: Xingyu Zhu, Xin Wang, Jonathan Freer, Hyung Jin Chang, Yixing Gao
- Abstract要約: セグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
我々は、Fractal Cross FusionモジュールがRGBと深度データを融合するネットワークへの入力として、リッチな色特徴を持つRGB画像を使用する。
実データ収集のコストを削減するため,敵対的戦略に基づくデータ拡張手法を提案する。
- 参考スコア(独自算出の注目度): 21.950751953721817
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Clothes grasping and unfolding is a core step in robotic-assisted dressing.
Most existing works leverage depth images of clothes to train a deep
learning-based model to recognize suitable grasping points. These methods often
utilize physics engines to synthesize depth images to reduce the cost of real
labeled data collection. However, the natural domain gap between synthetic and
real images often leads to poor performance of these methods on real data.
Furthermore, these approaches often struggle in scenarios where grasping points
are occluded by the clothing item itself. To address the above challenges, we
propose a novel Bi-directional Fractal Cross Fusion Network (BiFCNet) for
semantic segmentation, enabling recognition of graspable regions in order to
provide more possibilities for grasping. Instead of using depth images only, we
also utilize RGB images with rich color features as input to our network in
which the Fractal Cross Fusion (FCF) module fuses RGB and depth data by
considering global complex features based on fractal geometry. To reduce the
cost of real data collection, we further propose a data augmentation method
based on an adversarial strategy, in which the color and geometric
transformations simultaneously process RGB and depth data while maintaining the
label correspondence. Finally, we present a pipeline for clothes grasping and
unfolding from the perspective of semantic segmentation, through the addition
of a strategy for grasp point selection from segmentation regions based on
clothing flatness measures, while taking into account the grasping direction.
We evaluate our BiFCNet on the public dataset NYUDv2 and obtained comparable
performance to current state-of-the-art models. We also deploy our model on a
Baxter robot, running extensive grasping and unfolding experiments as part of
our ablation studies, achieving an 84% success rate.
- Abstract(参考訳): 服の把持と展開は、ロボット支援ドレッシングの核となるステップである。
既存の作品の多くは、服の奥行き画像を利用して深層学習に基づくモデルを訓練し、適切な把持点を認識する。
これらの手法はしばしば物理エンジンを用いて深度画像の合成を行い、実際のラベル付きデータ収集のコストを削減する。
しかし、合成画像と実画像の間の自然な領域ギャップは、しばしば実際のデータ上でこれらのメソッドのパフォーマンスを低下させる。
さらに、これらのアプローチは、着物自体に把持ポイントが混入するシナリオでしばしば苦労する。
以上の課題に対処するために,セマンティックセグメンテーションのための双方向フラクタルクロスフュージョンネットワーク(BiFCNet)を提案する。
深度画像のみを使用する代わりに,フラクタル・クロス・フュージョン(FCF)モジュールがRGBと深度データを融合するネットワークへの入力として,フラクタル幾何に基づく地球規模の複雑な特徴を考慮したRGB画像を利用する。
さらに,実データ収集のコストを削減するために,色と幾何学的変換がラベル対応を維持しながらrgbと深度データを同時に処理する,敵対的戦略に基づくデータ拡張手法を提案する。
最後に,衣服の平坦性尺度に基づくセグメント領域からの地点選択戦略を付加し,その把握方向を考慮しつつ,意味セグメンテーションの観点から衣服の把握と展開を行うパイプラインを提案する。
公開データセットNYUDv2でBiFCNetを評価し,現在の最先端モデルに匹敵する性能を得た。
また,baxterロボットにモデルをデプロイし,アブレーション実験の一環として広範囲な把握および展開実験を行い,84%の成功率を得た。
関連論文リスト
- Diffusion-based RGB-D Semantic Segmentation with Deformable Attention Transformer [10.982521876026281]
本稿では,RGB-Dセマンティックセグメンテーション問題に対処する拡散型フレームワークを提案する。
本研究では,デフォルマブルアテンション変換器をエンコーダとして利用し,奥行き画像から特徴を抽出することにより,デフォルマブルアテンション変換器の特性を効果的に把握できることを実証する。
論文 参考訳(メタデータ) (2024-09-23T15:23:01Z) - Semantic RGB-D Image Synthesis [22.137419841504908]
この問題に対処するために,意味的RGB-D画像合成を導入する。
しかし、現在のアプローチはユニモーダルであり、マルチモーダルデータには対応できない。
意味的レイアウトのモーダル非依存情報とモーダル依存情報とを分離したマルチモーダルデータのジェネレータを提案する。
論文 参考訳(メタデータ) (2023-08-22T11:16:24Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Semantic keypoint-based pose estimation from single RGB frames [64.80395521735463]
一つのRGB画像からオブジェクトの連続6-DoFポーズを推定する手法を提案する。
このアプローチは、畳み込みネットワーク(convnet)によって予測されるセマンティックキーポイントと、変形可能な形状モデルを組み合わせる。
提案手法は,インスタンスベースのシナリオとクラスベースのシナリオの両方に対して,6-DoFオブジェクトのポーズを正確に復元できることを示す。
論文 参考訳(メタデータ) (2022-04-12T15:03:51Z) - Scale Invariant Semantic Segmentation with RGB-D Fusion [12.650574326251023]
RGB-D画像を用いたスケール不変セマンティックセグメンテーションのためのニューラルネットワークアーキテクチャを提案する。
画素単位のセマンティックセグメンテーションのためのRGBデータに深度情報を組み込んで,屋外シーンにおける異なるスケールオブジェクトに対処する。
我々のモデルはコンパクトであり、他のRGBモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2022-04-10T12:54:27Z) - Grasp-Oriented Fine-grained Cloth Segmentation without Real Supervision [66.56535902642085]
本稿では, 深度画像のみを用いて, 変形した衣服のきめ細かい領域検出の問題に取り組む。
最大で6つの意味領域を定義し, 首の縁, スリーブカフ, ヘム, 上と下をつかむ点を含む。
これらの部品のセグメント化とラベル付けを行うために,U-net ベースのネットワークを導入する。
合成データのみを用いてネットワークをトレーニングし、提案したDAが実データでトレーニングしたモデルと競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-06T16:31:20Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Progressively Guided Alternate Refinement Network for RGB-D Salient
Object Detection [63.18846475183332]
我々は,RGB-Dの高次物体検出のための効率的かつコンパクトなディープネットワークを開発することを目指している。
そこで本研究では,改良のための改良ネットワークを提案する。
我々のモデルは、既存の最先端のアプローチよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-08-17T02:55:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。