論文の概要: Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images
- arxiv url: http://arxiv.org/abs/2404.16423v1
- Date: Thu, 25 Apr 2024 08:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:19:10.448590
- Title: Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images
- Title(参考訳): ニューラルアセンブラ:多視点画像から細粒度ロボット組立命令を生成する学習
- Authors: Hongyu Yan, Yadong Mu,
- Abstract要約: 本稿では, 構造的3次元モデルのマルチビュー画像を, 組み立て命令の詳細なシーケンスに変換するという, 新たな課題を紹介する。
本稿では,ニューラルアセンブラ(Neural Assembler)と呼ばれるエンドツーエンドモデルを提案する。
- 参考スコア(独自算出の注目度): 24.10809783713574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-guided object assembly represents a burgeoning research topic in computer vision. This paper introduces a novel task: translating multi-view images of a structural 3D model (for example, one constructed with building blocks drawn from a 3D-object library) into a detailed sequence of assembly instructions executable by a robotic arm. Fed with multi-view images of the target 3D model for replication, the model designed for this task must address several sub-tasks, including recognizing individual components used in constructing the 3D model, estimating the geometric pose of each component, and deducing a feasible assembly order adhering to physical rules. Establishing accurate 2D-3D correspondence between multi-view images and 3D objects is technically challenging. To tackle this, we propose an end-to-end model known as the Neural Assembler. This model learns an object graph where each vertex represents recognized components from the images, and the edges specify the topology of the 3D model, enabling the derivation of an assembly plan. We establish benchmarks for this task and conduct comprehensive empirical evaluations of Neural Assembler and alternative solutions. Our experiments clearly demonstrate the superiority of Neural Assembler.
- Abstract(参考訳): 画像誘導オブジェクトアセンブリは、コンピュータビジョンにおける急成長する研究トピックである。
本稿では, 構造的3Dモデルのマルチビュー画像(例えば, 3Dオブジェクトライブラリから描画されたブロックで構築したもの)を, ロボットアームで実行可能な組立命令の詳細なシーケンスに変換するという, 新たな課題を紹介する。
複製のためのターゲット3Dモデルのマルチビュー画像を用いて、このタスクのために設計されたモデルは、3Dモデルの構築に使用される個々のコンポーネントを認識し、各コンポーネントの幾何学的ポーズを推定し、物理規則に忠実な実行可能な組み立て順序を推論するなど、いくつかのサブタスクに対処する必要がある。
多視点画像と3Dオブジェクトの正確な2D-3D対応を確立することは技術的に困難である。
そこで我々はニューラルアセンブラ(Neural Assembler)と呼ばれるエンドツーエンドモデルを提案する。
このモデルは,各頂点が画像から認識された成分を表すオブジェクトグラフを学習し,エッジが3次元モデルのトポロジを規定し,組立計画の導出を可能にする。
我々は,このタスクのベンチマークを作成し,ニューラルアセンブラと代替ソリューションの総合的な実験評価を行う。
我々の実験は明らかにニューラルアセンブラの優位性を示している。
関連論文リスト
- SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Translating a Visual LEGO Manual to a Machine-Executable Plan [26.0127179598152]
本研究では,人間設計者が作成したイメージベース・ステップ・バイ・ステップ・アセンブリ・マニュアルを機械解釈可能な命令に変換する問題について検討する。
本稿では,手動画像から組立ステップを再構築する新しい学習ベースフレームワークMEPNetを提案する。
論文 参考訳(メタデータ) (2022-07-25T23:35:46Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z) - Generative 3D Part Assembly via Dynamic Graph Learning [34.108515032411695]
部品組み立ては、3Dコンピュータビジョンとロボット工学において難しいが重要な課題だ。
本稿では,反復グラフニューラルネットワークをバックボーンとして活用する,アセンブリ指向の動的グラフ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-14T04:26:42Z) - Learning Unsupervised Hierarchical Part Decomposition of 3D Objects from
a Single RGB Image [102.44347847154867]
プリミティブの集合として3次元オブジェクトの幾何を共同で復元できる新しい定式化を提案する。
我々のモデルは、プリミティブのバイナリツリーの形で、様々なオブジェクトの高レベルな構造的分解を復元する。
ShapeNet と D-FAUST のデータセットを用いた実験により,部品の組織化を考慮すれば3次元形状の推論が容易になることが示された。
論文 参考訳(メタデータ) (2020-04-02T17:58:05Z) - Learning 3D Part Assembly from a Single Image [20.175502864488493]
そこで本研究では,新たな問題として,学習ベースのソリューションとともに,シングルイメージの3Dパーツアセンブリを導入する。
本報告では, 家具組立において, 部品の完全な集合と, 組み立て物全体を描いた一枚の画像から, 家具組立の設定について検討する。
論文 参考訳(メタデータ) (2020-03-21T21:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。