論文の概要: Translating a Visual LEGO Manual to a Machine-Executable Plan
- arxiv url: http://arxiv.org/abs/2207.12572v1
- Date: Mon, 25 Jul 2022 23:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:20:18.759591
- Title: Translating a Visual LEGO Manual to a Machine-Executable Plan
- Title(参考訳): ビジュアルレゴマニュアルを機械実行可能なプランに翻訳する
- Authors: Ruocheng Wang, Yunzhi Zhang, Jiayuan Mao, Chin-Yi Cheng, Jiajun Wu
- Abstract要約: 本研究では,人間設計者が作成したイメージベース・ステップ・バイ・ステップ・アセンブリ・マニュアルを機械解釈可能な命令に変換する問題について検討する。
本稿では,手動画像から組立ステップを再構築する新しい学習ベースフレームワークMEPNetを提案する。
- 参考スコア(独自算出の注目度): 26.0127179598152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of translating an image-based, step-by-step assembly
manual created by human designers into machine-interpretable instructions. We
formulate this problem as a sequential prediction task: at each step, our model
reads the manual, locates the components to be added to the current shape, and
infers their 3D poses. This task poses the challenge of establishing a 2D-3D
correspondence between the manual image and the real 3D object, and 3D pose
estimation for unseen 3D objects, since a new component to be added in a step
can be an object built from previous steps. To address these two challenges, we
present a novel learning-based framework, the Manual-to-Executable-Plan Network
(MEPNet), which reconstructs the assembly steps from a sequence of manual
images. The key idea is to integrate neural 2D keypoint detection modules and
2D-3D projection algorithms for high-precision prediction and strong
generalization to unseen components. The MEPNet outperforms existing methods on
three newly collected LEGO manual datasets and a Minecraft house dataset.
- Abstract(参考訳): 本研究では,人間設計者によって作成された画像ベースのステップ・バイ・ステップ・アセンブリマニュアルを機械解釈可能な命令に翻訳する問題について検討する。
私たちはこの問題を逐次予測タスクとして定式化し、各ステップでモデルがマニュアルを読み、現在の形状に追加するコンポーネントを見つけ、3dポーズを推測します。
この課題は、手動画像と実際の3Dオブジェクトとの2D-3D対応を確立すること、ステップで追加すべき新しいコンポーネントが以前のステップから構築されたオブジェクトであるため、見えない3Dオブジェクトの3Dポーズ推定を行う。
これら2つの課題に対処するために,手動画像から組立ステップを再構築する新しい学習ベースフレームワークMEPNet(Manual-to-Executable-Plan Network)を提案する。
キーとなるアイデアは、ニューラルネットワーク2Dキーポイント検出モジュールと2D-3Dプロジェクションアルゴリズムを統合して、高精度な予測と、見えないコンポーネントへの強力な一般化を実現することである。
mepnetは、新たに収集した3つのlegoマニュアルデータセットとminecraft houseデータセットの既存のメソッドを上回っている。
関連論文リスト
- Learning 3D Representations from Procedural 3D Programs [6.915871213703219]
自己教師付き学習は、ラベルのない3Dポイントクラウドから転送可能な3D表現を取得するための有望なアプローチとして登場した。
簡単なプリミティブと拡張を使って3次元形状を自動的に生成する手続き型3Dプログラムから3次元表現を学習する。
論文 参考訳(メタデータ) (2024-11-25T18:59:57Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images [24.10809783713574]
本稿では, 構造的3次元モデルのマルチビュー画像を, 組み立て命令の詳細なシーケンスに変換するという, 新たな課題を紹介する。
本稿では,ニューラルアセンブラ(Neural Assembler)と呼ばれるエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2024-04-25T08:53:23Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。