論文の概要: A Pipeline for Segmenting and Structuring RGB-D Data for Robotics Applications
- arxiv url: http://arxiv.org/abs/2410.17988v1
- Date: Wed, 23 Oct 2024 16:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:39.52576
- Title: A Pipeline for Segmenting and Structuring RGB-D Data for Robotics Applications
- Title(参考訳): ロボット応用のためのRGB-Dデータの分割と構造化のためのパイプライン
- Authors: Zhiwu Zheng, Lauren Mentzer, Berk Iskender, Michael Price, Colm Prendergast, Audren Cloitre,
- Abstract要約: 色と深度(RGB-D)データを分割・構造化するための新しいパイプラインを導入する。
我々のパイプラインはRGB-Dデータを正確なセマンティックマスクに分割できる。
これらのマスクは、生の捕獲された点雲を意味的に分離された点雲に融合するために使用される。
- 参考スコア(独自算出の注目度): 0.7951977175758216
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a novel pipeline for segmenting and structuring color and depth (RGB-D) data. Existing processing pipelines for RGB-D data have focused on extracting geometric information alone. This approach precludes the development of more advanced robotic navigation and manipulation algorithms, which benefit from a semantic understanding of their environment. Our pipeline can segment RGB-D data into accurate semantic masks. These masks are then used to fuse raw captured point clouds into semantically separated point clouds. We store this information using the Universal Scene Description (USD) file format, a format suitable for easy querying by downstream robotics algorithms, human-friendly visualization, and robotics simulation.
- Abstract(参考訳): 色と深度(RGB-D)データを分割・構造化するための新しいパイプラインを導入する。
既存のRGB-Dデータ処理パイプラインは、幾何学的情報のみを抽出することに重点を置いている。
このアプローチは、より高度なロボットナビゲーションと操作アルゴリズムの開発を妨げる。
我々のパイプラインはRGB-Dデータを正確なセマンティックマスクに分割できる。
これらのマスクは、生の捕獲された点雲を意味的に分離された点雲に融合するために使用される。
我々は,この情報を,下流ロボットアルゴリズム,人間フレンドリな可視化,ロボットシミュレーションによる簡単なクエリに適したフォーマットであるユニバーサルシーン記述(USD)ファイル形式を用いて記憶する。
関連論文リスト
- CAP-Net: A Unified Network for 6D Pose and Size Estimation of Categorical Articulated Parts from a Single RGB-D Image [86.75098349480014]
本稿では,ロボット操作作業における調音物体のカテゴリーレベルのポーズ推定に取り組む。
そこで本研究では,Categorical Articulated Partsの6次元ポーズとサイズを推定するためのシングルステージネットワークCAP-Netを提案する。
我々は,RGB画像と実センサからシミュレーションした深度雑音を特徴とするRGB-D調音データセットであるRGBD-Artデータセットを紹介した。
論文 参考訳(メタデータ) (2025-04-15T14:30:26Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - RISeg: Robot Interactive Object Segmentation via Body Frame-Invariant
Features [6.358423536732677]
本稿では,ロボットインタラクションとデザインされたボディーフレーム不変機能を用いて,不正確なセグメンテーションを補正する新しい手法を提案する。
オブジェクト分割精度を平均80.7%とすることで、散らばったシーンを正確にセグメント化するための対話型知覚パイプラインの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-04T05:03:24Z) - Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - Human Semantic Segmentation using Millimeter-Wave Radar Sparse Point
Clouds [3.3888257250564364]
本稿では,ミリ波レーダの粗い逐次点雲のセマンティックセグメンテーションのためのフレームワークを提案する。
mmWaveデータの空間的特徴と時間的トポロジ的特徴は依然として問題である。
グラフ構造とトポロジ的特徴をポイントクラウドに導入し,セマンティックセグメンテーションフレームワークを提案する。
我々のモデルは、$mathbf82.31%$でカスタムデータセットの平均精度を達成し、最先端のアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-04-27T12:28:06Z) - Semi-Weakly Supervised Object Kinematic Motion Prediction [56.282759127180306]
3Dオブジェクトが与えられた場合、運動予測は移動部と対応する運動パラメータを識別することを目的としている。
階層的部分分割と移動部パラメータのマップを学習するグラフニューラルネットワークを提案する。
ネットワーク予測は、擬似ラベル付き移動情報を持つ大規模な3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-03-31T02:37:36Z) - Spherical Space Feature Decomposition for Guided Depth Map
Super-Resolution [123.04455334124188]
誘導深度マップ超解像(GDSR)は、低解像度(LR)深度マップに高解像度(HR)RGB画像を含む追加情報を加えることを目的としている。
本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。
提案手法は,4つのテストデータセットの最先端結果と実世界のシーンへの一般化を実現する。
論文 参考訳(メタデータ) (2023-03-15T21:22:21Z) - Pixel Difference Convolutional Network for RGB-D Semantic Segmentation [2.334574428469772]
RGB-Dセマンティックセグメンテーションは、深度データの可用性のために畳み込みニューラルネットワークによって前進することができる。
固定グリッドカーネル構造を考えると、CNNは詳細できめ細かい情報をキャプチャする能力に限られる。
本稿では,差分畳み込みネットワーク(PDCNet)を提案する。
論文 参考訳(メタデータ) (2023-02-23T12:01:22Z) - Robust Double-Encoder Network for RGB-D Panoptic Segmentation [31.807572107839576]
パノプティックセグメンテーションは、ピクセルワイズセマンティックラベルをインスタンスIDと共に計算することでシーンの解釈を提供する。
本稿では、2つのエンコーダを通してRGBと深さを別々に処理する新しいエンコーダデコーダニューラルネットワークを提案する。
提案手法は,他の汎視的セグメンテーション手法と比較して,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:46:37Z) - Unseen Object Instance Segmentation with Fully Test-time RGB-D
Embeddings Adaptation [14.258456366985444]
最近では、大規模な合成データのRGB-D機能を活用し、実世界のシナリオにモデルを適用するのが一般的である。
本稿では,Sim2Realドメイン間の適応プロセスを再強調する。
本稿では,BatchNorm層のパラメータに基づいて,完全テスト時間RGB-D埋め込み適応(FTEA)を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:20Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Data-Level Recombination and Lightweight Fusion Scheme for RGB-D Salient
Object Detection [73.31632581915201]
深部特徴抽出に先立って,RGBとD(深部)を融合する新たなデータレベル組換え手法を提案する。
新たに設計された3重ストリームネットワークをこれらの新しい定式化データ上に適用し,RGBとDのチャネルワイドな相補的融合状態を実現する。
論文 参考訳(メタデータ) (2020-08-07T10:13:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Unseen Object Instance Segmentation for Robotic Environments [67.88276573341734]
本稿では,テーブルトップ環境において未確認のオブジェクトインスタンスをセグメント化する手法を提案する。
UOIS-Netは2つのステージで構成されている: まず、オブジェクトのインスタンス中心の投票を2Dまたは3Dで生成するために、深さでのみ動作する。
驚くべきことに、我々のフレームワークは、RGBが非フォトリアリスティックな合成RGB-Dデータから学習することができる。
論文 参考訳(メタデータ) (2020-07-16T01:59:13Z) - Pose2RGBD. Generating Depth and RGB images from absolute positions [0.0]
本稿では,これまで見てきた映像,深度,ポーズ信号に基づいてRGBD画像を自動的に生成する手法を提案する。
このプロセスは、生成されたシーンをナビゲートするために使用できる関数 f : Pose -> RGBD を得るニューラルレンダリングと考えることができる。
論文 参考訳(メタデータ) (2020-07-14T13:07:06Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。