論文の概要: TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly
- arxiv url: http://arxiv.org/abs/2407.15648v1
- Date: Mon, 22 Jul 2024 14:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:51:29.700262
- Title: TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly
- Title(参考訳): TreeSBA: 自己監督型逐次れんが組み立て用木変換器
- Authors: Mengqi Guo, Chen Li, Yuyang Zhao, Gim Hee Lee,
- Abstract要約: 入力された多視点画像から連続的な組立動作を予測するために,クラスに依存しないツリー・トランスフォーマフレームワークを提案する。
逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。
我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
- 参考スコア(独自算出の注目度): 51.29305265324916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inferring step-wise actions to assemble 3D objects with primitive bricks from images is a challenging task due to complex constraints and the vast number of possible combinations. Recent studies have demonstrated promising results on sequential LEGO brick assembly through the utilization of LEGO-Graph modeling to predict sequential actions. However, existing approaches are class-specific and require significant computational and 3D annotation resources. In this work, we first propose a computationally efficient breadth-first search (BFS) LEGO-Tree structure to model the sequential assembly actions by considering connections between consecutive layers. Based on the LEGO-Tree structure, we then design a class-agnostic tree-transformer framework to predict the sequential assembly actions from the input multi-view images. A major challenge of the sequential brick assembly task is that the step-wise action labels are costly and tedious to obtain in practice. We mitigate this problem by leveraging synthetic-to-real transfer learning. Specifically, our model is first pre-trained on synthetic data with full supervision from the available action labels. We then circumvent the requirement for action labels in the real data by proposing an action-to-silhouette projection that replaces action labels with input image silhouettes for self-supervision. Without any annotation on the real data, our model outperforms existing methods with 3D supervision by 7.8% and 11.3% in mIoU on the MNIST and ModelNet Construction datasets, respectively.
- Abstract(参考訳): 画像からプリミティブなブロックで3Dオブジェクトを組み立てるためのステップワイズなアクションを推測することは、複雑な制約と膨大な数の組み合わせのために難しい作業である。
近年の研究では、レゴグラフモデリングを用いてシーケンシャルな動作を予測することで、シーケンシャルなレゴブロックの組み立てに有望な成果が示されている。
しかし、既存のアプローチはクラス固有であり、重要な計算資源と3Dアノテーションリソースを必要とする。
本研究ではまず,連続層間の接続を考慮した逐次組立動作のモデル化を目的とした,計算効率の良い広帯域探索(BFS)LEGO-Tree構造を提案する。
LEGO-Tree構造に基づいて、入力された多視点画像から逐次的な組立動作を予測するために、クラスに依存しないツリー・トランスフォーマー・フレームワークを設計する。
逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。
我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
具体的には、本モデルは、利用可能なアクションラベルから完全に監督された合成データに基づいて、まず事前訓練される。
次に、実データにおけるアクションラベルの要求を回避し、アクションラベルを自己監督用の入力画像シルエットに置き換えるアクション・ツー・シルエット・プロジェクションを提案する。
MNIST と ModelNet Construction のデータセットでそれぞれ mIoU の7.8% と 11.3% の 3D 監督率で既存の手法より優れている。
関連論文リスト
- Forest2Seq: Revitalizing Order Prior for Sequential Indoor Scene Synthesis [109.50718968215658]
本研究では,屋内シーンの合成を順序認識型シーケンシャル学習問題として定式化するフレームワークであるフォレスト2Seqを提案する。
クラスタリングに基づくアルゴリズムと幅優先のアルゴリズムを用いることで、フォレスト2セックは意味のある順序付けを導き、トランスフォーマーを使用してリアルな3Dシーンを自動回帰的に生成する。
論文 参考訳(メタデータ) (2024-07-07T14:32:53Z) - Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。
BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。
BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:57:04Z) - Weak-to-Strong 3D Object Detection with X-Ray Distillation [75.47580744933724]
本稿では,既存の任意の3Dオブジェクト検出フレームワークにシームレスに統合する多目的手法を提案する。
オブジェクト・コンプリートフレームを用いたX線蒸留は、教師付き設定と半教師付き設定の両方に適している。
提案手法は,半教師あり学習における最先端の手法を1-1.5mAPで超越する。
論文 参考訳(メタデータ) (2024-03-31T13:09:06Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [47.72968643115063]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - Language-free Compositional Action Generation via Decoupling Refinement [67.50452446686725]
本稿では,言語補助に頼らずに作曲行動を生成する新しい枠組みを提案する。
このアプローチは,アクション結合,条件付きアクション生成,デカップリングリファインメントという3つの主要コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-07-07T12:00:38Z) - Planning Assembly Sequence with Graph Transformer [35.2954163574535]
アセンブリシーケンス計画(ASP)はNP完全であることが証明されており、その効率的かつ効率的な解法はこの分野の研究者にとって課題となっている。
本稿では, 自己コンパイル型ASPデータベース上で学習し, 実証した ASP 問題のためのグラフ変換器ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-11T08:06:16Z) - Break and Make: Interactive Structural Understanding Using LEGO Bricks [61.01136603613139]
私たちは、LEGOモデルの組み立て、分解、操作が可能な、完全にインタラクティブな3Dシミュレータを構築しました。
シーケンス・ツー・シーケンス・モデルを用いてこの問題を解決するための第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-07-27T18:33:09Z) - Translating a Visual LEGO Manual to a Machine-Executable Plan [26.0127179598152]
本研究では,人間設計者が作成したイメージベース・ステップ・バイ・ステップ・アセンブリ・マニュアルを機械解釈可能な命令に変換する問題について検討する。
本稿では,手動画像から組立ステップを再構築する新しい学習ベースフレームワークMEPNetを提案する。
論文 参考訳(メタデータ) (2022-07-25T23:35:46Z) - LocATe: End-to-end Localization of Actions in 3D with Transformers [91.28982770522329]
LocATeは、3Dシーケンスでアクションを共同でローカライズし認識するエンドツーエンドのアプローチである。
画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。
BABEL-TAL-20 (BT20) という新しい,挑戦的で,より現実的なベンチマークデータセットを導入する。
論文 参考訳(メタデータ) (2022-03-21T03:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。