論文の概要: Break and Make: Interactive Structural Understanding Using LEGO Bricks
- arxiv url: http://arxiv.org/abs/2207.13738v1
- Date: Wed, 27 Jul 2022 18:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-29 11:57:37.921346
- Title: Break and Make: Interactive Structural Understanding Using LEGO Bricks
- Title(参考訳): Break and Make: LEGO Bricksを使ったインタラクティブな構造理解
- Authors: Aaron Walsman, Muru Zhang, Klemen Kotar, Karthik Desingh, Ali Farhadi,
Dieter Fox
- Abstract要約: 私たちは、LEGOモデルの組み立て、分解、操作が可能な、完全にインタラクティブな3Dシミュレータを構築しました。
シーケンス・ツー・シーケンス・モデルを用いてこの問題を解決するための第一歩を踏み出す。
- 参考スコア(独自算出の注目度): 61.01136603613139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual understanding of geometric structures with complex spatial
relationships is a fundamental component of human intelligence. As children, we
learn how to reason about structure not only from observation, but also by
interacting with the world around us -- by taking things apart and putting them
back together again. The ability to reason about structure and compositionality
allows us to not only build things, but also understand and reverse-engineer
complex systems. In order to advance research in interactive reasoning for
part-based geometric understanding, we propose a challenging new assembly
problem using LEGO bricks that we call Break and Make. In this problem an agent
is given a LEGO model and attempts to understand its structure by interactively
inspecting and disassembling it. After this inspection period, the agent must
then prove its understanding by rebuilding the model from scratch using
low-level action primitives. In order to facilitate research on this problem we
have built LTRON, a fully interactive 3D simulator that allows learning agents
to assemble, disassemble and manipulate LEGO models. We pair this simulator
with a new dataset of fan-made LEGO creations that have been uploaded to the
internet in order to provide complex scenes containing over a thousand unique
brick shapes. We take a first step towards solving this problem using
sequence-to-sequence models that provide guidance for how to make progress on
this challenging problem. Our simulator and data are available at
github.com/aaronwalsman/ltron. Additional training code and PyTorch examples
are available at github.com/aaronwalsman/ltron-torch-eccv22.
- Abstract(参考訳): 複雑な空間関係を持つ幾何学構造の視覚的理解は、人間の知性の基本的構成要素である。
子ども時代は、観察だけでなく、周りの世界と対話することで、構造を理屈する方法を学んでいる。
構造と構成性について推論する能力は、ものを構築するだけでなく、複雑なシステムを理解しリバースエンジニアリングすることもできます。
部分的幾何学的理解のための対話的推論の研究を進めるために,私たちがBreak and Makeと呼ぶレゴブロックを用いた新しい組立問題を提案する。
この問題において、エージェントはLEGOモデルを与え、対話的な検査と分解によってその構造を理解しようとする。
この検査期間の後、エージェントは低レベルのアクションプリミティブを使用してモデルをスクラッチから再構築し、その理解を証明する必要がある。
この問題を解決するために私たちは,LEGOモデルの組み立て,分解,操作が可能な,完全にインタラクティブな3DシミュレータLTRONを開発した。
このシミュレーターと、ファンが作ったレゴ作品の新しいデータセットを組み合わせることで、1000以上のユニークなレンガの形をした複雑なシーンをインターネットにアップロードします。
課題の解決に向けて第一歩を踏み出し,課題の解決方法に関するガイダンスを提供するシーケンシャル・ツー・シーケンス・モデルを用いた。
シミュレータとデータはgithub.com/aaronwalsman/ltronで利用可能です。
追加のトレーニングコードとpytorchサンプルはgithub.com/aaronwalsman/ltron-torch-eccv22で入手できる。
関連論文リスト
- Planning for Complex Non-prehensile Manipulation Among Movable Objects
by Interleaving Multi-Agent Pathfinding and Physics-Based Simulation [23.62057790524675]
重いクラッタにおける現実世界の操作問題は、ロボットが環境内の物体との潜在的な接触を推論する必要がある。
そこで我々は,対象物を棚から取り出すためのピック・アンド・プレイス・スタイルのタスクに焦点を合わせ,そのタスクを解決するために移動可能なオブジェクトを並べ替える必要がある。
特に、我々のモチベーションは、ロボットが複雑なロボットオブジェクトとオブジェクトオブジェクトの相互作用を引き起こす非包括的再配置動作を推論し、検討できるようにすることである。
論文 参考訳(メタデータ) (2023-03-23T15:29:27Z) - Self-Supervised Object Goal Navigation with In-Situ Finetuning [110.6053241629366]
この研究は、探検を通じて世界の自己監督モデルを構築するエージェントを構築する。
ObjectNavエージェントのすべてのコンポーネントをトレーニングできる強力なセルフスーパービジョンのソースを特定します。
我々は,エージェントが実世界で競争力を発揮し,シミュレーションを行うことを示す。
論文 参考訳(メタデータ) (2022-12-09T03:41:40Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Brick-by-Brick: Combinatorial Construction with Deep Reinforcement
Learning [52.85981207514049]
我々は,ユニットプリミティブを逐次組み立てるビルディングエージェントを必要とする,新しい定式化,複雑な構成を導入する。
対象物を構築するために,エージェントに対して正確な情報や明示的な情報ではなく,所望の目標(すなわち2次元画像)に関する不完全な知識を提供する。
提案手法は,対象オブジェクトの1つの画像や複数ビューに条件付けされた未確認オブジェクトの構築に成功していることを示す。
論文 参考訳(メタデータ) (2021-10-29T01:09:51Z) - Image2Lego: Customized LEGO Set Generation from Images [50.87935634904456]
2次元画像からLEGOブロックモデルを生成するシステムを実装した。
モデルは3Dボキセル化モデルのブロックへのアルゴリズム変換によって得られる。
我々は、オブジェクトと人間の顔のLEGOモデルのためのステップバイステップのビルド手順とアニメーションを生成します。
論文 参考訳(メタデータ) (2021-08-19T03:42:58Z) - LegoFormer: Transformers for Block-by-Block Multi-view 3D Reconstruction [45.16128577837725]
現代のディープラーニングベースの多視点3D再構成技術のほとんどは、RNNまたは融合モジュールを使用して、エンコード後の複数の画像からの情報を組み合わせている。
我々は, 1 つのフレームワークでオブジェクト再構成を統一し, その分解因子によって再構成された占有グリッドをパラメータ化する, トランスフォーマーベースのモデルである LegoFormer を提案する。
論文 参考訳(メタデータ) (2021-06-23T00:15:08Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z) - Learning to Simulate Dynamic Environments with GameGAN [109.25308647431952]
本稿では,エージェントが環境と対話するのを見ることでシミュレーターを学習することを目的とする。
ゲームGANは,学習中にスクリーンプレイやキーボード操作を取り入れることで,所望のゲームを視覚的に模倣することを学習する生成モデルである。
論文 参考訳(メタデータ) (2020-05-25T14:10:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。