論文の概要: MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes
- arxiv url: http://arxiv.org/abs/2304.12592v1
- Date: Tue, 25 Apr 2023 05:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 21:51:12.468331
- Title: MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes
- Title(参考訳): MMRDN:オブジェクト指向シーンにおけるマルチビュー操作関係検出のための一貫性表現
- Authors: Han Wang, Jiayuan Zhang, Lipeng Wan, Xingyu Chen, Xuguang Lan, Nanning
Zheng
- Abstract要約: 我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
- 参考スコア(独自算出の注目度): 62.20046129613934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manipulation relationship detection (MRD) aims to guide the robot to grasp
objects in the right order, which is important to ensure the safety and
reliability of grasping in object stacked scenes. Previous works infer
manipulation relationship by deep neural network trained with data collected
from a predefined view, which has limitation in visual dislocation in
unstructured environments. Multi-view data provide more comprehensive
information in space, while a challenge of multi-view MRD is domain shift. In
this paper, we propose a novel multi-view fusion framework, namely multi-view
MRD network (MMRDN), which is trained by 2D and 3D multi-view data. We project
the 2D data from different views into a common hidden space and fit the
embeddings with a set of Von-Mises-Fisher distributions to learn the consistent
representations. Besides, taking advantage of position information within the
3D data, we select a set of $K$ Maximum Vertical Neighbors (KMVN) points from
the point cloud of each object pair, which encodes the relative position of
these two objects. Finally, the features of multi-view 2D and 3D data are
concatenated to predict the pairwise relationship of objects. Experimental
results on the challenging REGRAD dataset show that MMRDN outperforms the
state-of-the-art methods in multi-view MRD tasks. The results also demonstrate
that our model trained by synthetic data is capable to transfer to real-world
scenarios.
- Abstract(参考訳): 操作関係検出(mrd)は、ロボットが物体を正しい順に掴むように誘導することを目的としており、物体の積み重ねられた場面における把持の安全性と信頼性を確保するために重要である。
事前定義された視点から収集されたデータでトレーニングされたディープニューラルネットワークによる操作関係は、非構造化環境での視覚的転位に制限がある。
マルチビューデータは、より包括的な空間情報を提供するが、マルチビューMDDの課題はドメインシフトである。
本稿では,2次元および3次元マルチビューデータを用いて訓練を行うマルチビューmrdネットワーク(mmrdn)という,新しいマルチビュー融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布の集合に適合させて一貫した表現を学習する。
さらに、3Dデータ内の位置情報を利用して、各オブジェクト対の点雲からK$Maximum Vertical Neighbors (KMVN) 点のセットを選択し、これら2つのオブジェクトの相対的な位置を符号化する。
最後に、多視点2Dデータと3Dデータの特徴を結合して、オブジェクトの相互関係を予測する。
挑戦的なREGRADデータセットの実験結果から、MMRDNはマルチビューMDDタスクにおいて最先端の手法よりも優れていることが示された。
また,合成データで学習したモデルが実世界のシナリオに移行できることも実証した。
関連論文リスト
- MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Multimodal 3D Object Detection on Unseen Domains [37.142470149311904]
ドメイン適応アプローチは、この問題に対処するために、テストディストリビューションから無注釈のサンプルへのアクセスを前提とします。
マルチモーダル融合および3次元オブジェクト検出のための教師付きコントラスト学習フレームワークであるCLIX$text3D$を提案する。
CLIX$text3D$は、複数のデータセットシフト下での最先端のドメイン一般化性能を示す。
論文 参考訳(メタデータ) (2024-04-17T21:47:45Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - MM-Point: Multi-View Information-Enhanced Multi-Modal Self-Supervised 3D
Point Cloud Understanding [4.220064723125481]
マルチビュー2D情報は、3Dオブジェクトに対して優れた自己教師付き信号を提供することができる。
MM-Pointは、モーダル内およびモーダル間類似性目的によって駆動される。
合成データセットModelNet40で92.4%、実世界のデータセットScanObjectNNで87.8%のピーク精度を達成した。
論文 参考訳(メタデータ) (2024-02-15T15:10:17Z) - SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects [24.737865259695006]
そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
論文 参考訳(メタデータ) (2024-01-17T11:15:09Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - MVM3Det: A Novel Method for Multi-view Monocular 3D Detection [0.0]
MVM3Detは、多視点単眼情報に基づいて、オブジェクトの3次元位置と向きを同時に推定する。
MVM3Dというマルチビュー3Dオブジェクト検出のための最初のデータセットを提案する。
論文 参考訳(メタデータ) (2021-09-22T01:31:00Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z) - Cross-Modality 3D Object Detection [63.29935886648709]
本稿では,3次元物体検出のための新しい2段階多モード融合ネットワークを提案する。
アーキテクチャ全体が2段階の融合を促進する。
KITTIデータセットを用いた実験により,提案したマルチステージ融合により,ネットワークがより良い表現を学習できることが示唆された。
論文 参考訳(メタデータ) (2020-08-16T11:01:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。