論文の概要: Translating a Visual LEGO Manual to a Machine-Executable Plan
- arxiv url: http://arxiv.org/abs/2207.12572v1
- Date: Mon, 25 Jul 2022 23:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-27 12:20:18.759591
- Title: Translating a Visual LEGO Manual to a Machine-Executable Plan
- Title(参考訳): ビジュアルレゴマニュアルを機械実行可能なプランに翻訳する
- Authors: Ruocheng Wang, Yunzhi Zhang, Jiayuan Mao, Chin-Yi Cheng, Jiajun Wu
- Abstract要約: 本研究では,人間設計者が作成したイメージベース・ステップ・バイ・ステップ・アセンブリ・マニュアルを機械解釈可能な命令に変換する問題について検討する。
本稿では,手動画像から組立ステップを再構築する新しい学習ベースフレームワークMEPNetを提案する。
- 参考スコア(独自算出の注目度): 26.0127179598152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of translating an image-based, step-by-step assembly
manual created by human designers into machine-interpretable instructions. We
formulate this problem as a sequential prediction task: at each step, our model
reads the manual, locates the components to be added to the current shape, and
infers their 3D poses. This task poses the challenge of establishing a 2D-3D
correspondence between the manual image and the real 3D object, and 3D pose
estimation for unseen 3D objects, since a new component to be added in a step
can be an object built from previous steps. To address these two challenges, we
present a novel learning-based framework, the Manual-to-Executable-Plan Network
(MEPNet), which reconstructs the assembly steps from a sequence of manual
images. The key idea is to integrate neural 2D keypoint detection modules and
2D-3D projection algorithms for high-precision prediction and strong
generalization to unseen components. The MEPNet outperforms existing methods on
three newly collected LEGO manual datasets and a Minecraft house dataset.
- Abstract(参考訳): 本研究では,人間設計者によって作成された画像ベースのステップ・バイ・ステップ・アセンブリマニュアルを機械解釈可能な命令に翻訳する問題について検討する。
私たちはこの問題を逐次予測タスクとして定式化し、各ステップでモデルがマニュアルを読み、現在の形状に追加するコンポーネントを見つけ、3dポーズを推測します。
この課題は、手動画像と実際の3Dオブジェクトとの2D-3D対応を確立すること、ステップで追加すべき新しいコンポーネントが以前のステップから構築されたオブジェクトであるため、見えない3Dオブジェクトの3Dポーズ推定を行う。
これら2つの課題に対処するために,手動画像から組立ステップを再構築する新しい学習ベースフレームワークMEPNet(Manual-to-Executable-Plan Network)を提案する。
キーとなるアイデアは、ニューラルネットワーク2Dキーポイント検出モジュールと2D-3Dプロジェクションアルゴリズムを統合して、高精度な予測と、見えないコンポーネントへの強力な一般化を実現することである。
mepnetは、新たに収集した3つのlegoマニュアルデータセットとminecraft houseデータセットの既存のメソッドを上回っている。
関連論文リスト
- 3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder [3.9729302621559186]
本稿では,既存の2次元機能と3次元機能を統合し,モデル学習プロセスを導く革新的なアプローチを提案する。
我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:46Z) - Dream2Real: Zero-Shot 3D Object Rearrangement with Vision-Language
Models [14.163489368617379]
本稿では、2Dデータに基づいてトレーニングされた視覚言語モデル(VLM)を3Dオブジェクト再構成パイプラインに統合するロボットフレームワークであるDream2Realを紹介する。
これは、ロボットがシーンの3D表現を自律的に構築し、オブジェクトを仮想的に再配置し、その結果の配置の画像を描画することで実現される。
これらのレンダリングはVLMによって評価され、ユーザの指示に最も適した配列が選択され、ピック・アンド・プレイスで現実世界で再現される。
論文 参考訳(メタデータ) (2023-12-07T18:51:19Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [50.57513088909881]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - SHOWMe: Benchmarking Object-agnostic Hand-Object 3D Reconstruction [13.417086460511696]
96本の動画からなるSHOWMeデータセットについて,実物と詳細な3Dテクスチャメッシュで注釈付けした。
我々は、手の動きがビデオシーケンス全体を通して一定である厳密な手オブジェクトのシナリオを考察する。
この仮定により、SHOWMeの画像シーケンスにサブミリメートル精度の基底3Dスキャンを登録できる。
論文 参考訳(メタデータ) (2023-09-19T16:48:29Z) - CLIP-Guided Vision-Language Pre-training for Question Answering in 3D
Scenes [68.61199623705096]
我々は,モデルが意味論的かつ伝達可能な3Dシーンポイントクラウド表現を学習するのに役立つ,新しい3D事前学習型ビジョンランゲージを設計する。
符号化された3Dシーン特徴と対応する2D画像とテキスト埋め込みとを一致させることにより、人気のあるCLIPモデルの表現力を3Dエンコーダに注入する。
我々は,3次元視覚質問応答の下流課題に対して,我々のモデルによる3次元世界推論能力を評価する。
論文 参考訳(メタデータ) (2023-04-12T16:52:29Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。