論文の概要: SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects
- arxiv url: http://arxiv.org/abs/2401.09133v1
- Date: Wed, 17 Jan 2024 11:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 16:15:25.035539
- Title: SM$^3$: Self-Supervised Multi-task Modeling with Multi-view 2D Images
for Articulated Objects
- Title(参考訳): SM$^3$: 人工物体の多視点2次元画像を用いた自己監督型マルチタスクモデリング
- Authors: Haowen Wang, Zhen Zhao, Zhao Jin, Zhengping Che, Liang Qiao, Yakun
Huang, Zhipeng Fan, Xiuquan Qiao, and Jian Tang
- Abstract要約: そこで本研究では, SM$3$と呼ばれる自己教師型相互作用認識手法を提案する。
取得した2次元画像から3次元の幾何学とテクスチャを構築することで、SM$3$は可動部と関節パラメータの統合最適化を実現する。
SM$3$は、様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオにおける適応性は、徹底的に検証されている。
- 参考スコア(独自算出の注目度): 24.737865259695006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing real-world objects and estimating their movable joint
structures are pivotal technologies within the field of robotics. Previous
research has predominantly focused on supervised approaches, relying on
extensively annotated datasets to model articulated objects within limited
categories. However, this approach falls short of effectively addressing the
diversity present in the real world. To tackle this issue, we propose a
self-supervised interaction perception method, referred to as SM$^3$, which
leverages multi-view RGB images captured before and after interaction to model
articulated objects, identify the movable parts, and infer the parameters of
their rotating joints. By constructing 3D geometries and textures from the
captured 2D images, SM$^3$ achieves integrated optimization of movable part and
joint parameters during the reconstruction process, obviating the need for
annotations. Furthermore, we introduce the MMArt dataset, an extension of
PartNet-Mobility, encompassing multi-view and multi-modal data of articulated
objects spanning diverse categories. Evaluations demonstrate that SM$^3$
surpasses existing benchmarks across various categories and objects, while its
adaptability in real-world scenarios has been thoroughly validated.
- Abstract(参考訳): 現実世界のオブジェクトを再構築し、その可動ジョイント構造を推定することは、ロボティクスの分野において重要な技術である。
これまでの研究は主に教師付きアプローチに重点を置いており、限定されたカテゴリ内のarticulated objectをモデル化するために、広範囲に注釈付きデータセットに依存している。
しかし、このアプローチは現実世界に存在する多様性に効果的に対応できない。
そこで本研究では,対話の前後に撮影された多視点のrgb画像を活用した自己教師付き対話知覚法であるsm$^3$を提案する。
取得した2次元画像から3次元のジオメトリとテクスチャを構築することで、SM$^3$は再構築プロセス中に可動部と関節パラメータの統合最適化を実現し、アノテーションの必要性を回避できる。
さらに,多様なカテゴリにまたがる多視点および多モードなオブジェクトデータを含む,PartNet-Mobilityの拡張であるMMArtデータセットを導入する。
SM$^3$は様々なカテゴリやオブジェクトにわたる既存のベンチマークを上回り、実際のシナリオでの適応性は十分に検証されている。
関連論文リスト
- MV2DFusion: Leveraging Modality-Specific Object Semantics for Multi-Modal 3D Detection [28.319440934322728]
MV2DFusionは、高度なクエリベースの融合機構を通じて両方の世界の強みを統合するマルチモーダル検出フレームワークである。
私たちのフレームワークの柔軟性は、任意のイメージとポイントクラウドベースの検出器との統合を可能にし、その適応性と将来の進歩の可能性を示しています。
論文 参考訳(メタデータ) (2024-08-12T06:46:05Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and
Multi-View for 3D Object Retrieval [8.74845857766369]
大規模データセットを用いた多モード3Dオブジェクト検索はめったに行われない。
本稿では,3次元オブジェクト検索のための点群と多視点画像の自己・横断的アグリゲーションを提案する。
論文 参考訳(メタデータ) (2023-07-20T05:46:32Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - MoreFusion: Multi-object Reasoning for 6D Pose Estimation from
Volumetric Fusion [19.034317851914725]
本稿では,複数の既知の物体の接触と隠蔽の正確なポーズを,リアルタイムな多視点視から推定するシステムを提案する。
提案手法は,1枚のRGB-Dビューからの3Dオブジェクトのポーズ提案を行い,カメラが移動すると,複数のビューからのポーズ推定と非パラメトリック占有情報を蓄積する。
提案手法の精度とロバスト性を2つのオブジェクトデータセット(YCB-Video)で実験的に検証する。
論文 参考訳(メタデータ) (2020-04-09T02:29:30Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。