論文の概要: Learning to Build by Building Your Own Instructions
- arxiv url: http://arxiv.org/abs/2410.01111v1
- Date: Tue, 1 Oct 2024 22:39:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:10:15.041200
- Title: Learning to Build by Building Your Own Instructions
- Title(参考訳): 独自のインストラクションを構築することで構築することを学ぶ
- Authors: Aaron Walsman, Muru Zhang, Adam Fishman, Ali Farhadi, Dieter Fox,
- Abstract要約: LTRONにおける最近提案されたBreak-and-Make問題に対する新しい手法を開発した。
エージェントは、単一の対話的なセッションを使用して、これまで見えなかったLEGOアセンブリを構築することを学ばなければなりません。
オンラインの模倣学習を使ってこれらのモデルをトレーニングし、モデルが自身のミスから学習できるようにする。
- 参考スコア(独自算出の注目度): 56.734927320020496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structural understanding of complex visual objects is an important unsolved component of artificial intelligence. To study this, we develop a new technique for the recently proposed Break-and-Make problem in LTRON where an agent must learn to build a previously unseen LEGO assembly using a single interactive session to gather information about its components and their structure. We attack this problem by building an agent that we call \textbf{\ours} that is able to make its own visual instruction book. By disassembling an unseen assembly and periodically saving images of it, the agent is able to create a set of instructions so that it has the information necessary to rebuild it. These instructions form an explicit memory that allows the model to reason about the assembly process one step at a time, avoiding the need for long-term implicit memory. This in turn allows us to train on much larger LEGO assemblies than has been possible in the past. To demonstrate the power of this model, we release a new dataset of procedurally built LEGO vehicles that contain an average of 31 bricks each and require over one hundred steps to disassemble and reassemble. We train these models using online imitation learning which allows the model to learn from its own mistakes. Finally, we also provide some small improvements to LTRON and the Break-and-Make problem that simplify the learning environment and improve usability.
- Abstract(参考訳): 複雑な視覚オブジェクトの構造的理解は、人工知能の重要な未解決要素である。
そこで,本研究では,エージェントがこれまで見つからなかったLEGOアセンブリを,単一の対話的なセッションで構築し,そのコンポーネントとその構造に関する情報を収集する,LTRONで最近提案されたBreak-and-Make問題に対する新しい手法を開発した。
我々は、独自のビジュアル・インストラクション・ブックを作成できる「textbf{\ours」と呼ばれるエージェントを構築することでこの問題に対処する。
見えないアセンブリを分解し、定期的にイメージを保存することにより、エージェントは、再構築に必要な情報を保持するために一連の命令を作成することができる。
これらの命令は明示的なメモリを形成し、モデルが1ステップずつアセンブリプロセスについて推論できるようにし、長期の暗黙記憶を必要としないようにする。
これによって,これまでよりもはるかに大きなLEGOアセンブリをトレーニングすることが可能になります。
このモデルの威力を示すために、我々は、平均31個のブロックを格納し、分解と再組み立てに100以上のステップを必要とする、手続き的に作られたLEGO車の新しいデータセットをリリースする。
オンラインの模倣学習を使ってこれらのモデルをトレーニングし、モデルが自身のミスから学習できるようにする。
最後に,LTRONとBreak-and-Makeの問題に対して,学習環境の簡素化とユーザビリティの向上を図っている。
関連論文リスト
- TreeSBA: Tree-Transformer for Self-Supervised Sequential Brick Assembly [51.29305265324916]
入力された多視点画像から連続的な組立動作を予測するために,クラスに依存しないツリー・トランスフォーマフレームワークを提案する。
逐次レンガ組立作業の大きな課題は、ステップワイドアクションラベルが実際に入手するのに費用がかかり、面倒であることである。
我々は、合成から現実への移行学習を活用することにより、この問題を緩和する。
論文 参考訳(メタデータ) (2024-07-22T14:05:27Z) - FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions [71.5977045423177]
本稿では,情報検索システムにおける命令の利用について検討する。
厳密なインストラクション評価ベンチマークを含むデータセットFollowIRを紹介した。
我々は、IRモデルが複雑な命令に従うことを学習することは可能であることを示す。
論文 参考訳(メタデータ) (2024-03-22T14:42:29Z) - Break and Make: Interactive Structural Understanding Using LEGO Bricks [61.01136603613139]
私たちは、LEGOモデルの組み立て、分解、操作が可能な、完全にインタラクティブな3Dシミュレータを構築しました。
シーケンス・ツー・シーケンス・モデルを用いてこの問題を解決するための第一歩を踏み出す。
論文 参考訳(メタデータ) (2022-07-27T18:33:09Z) - Unveiling Transformers with LEGO: a synthetic reasoning task [23.535488809197787]
我々は、トランスフォーマーアーキテクチャが推論の連鎖に従うことを学ぶ方法について研究する。
一部のデータ構造では、訓練されたトランスフォーマーは、推論の連鎖に従う"ショートカット"ソリューションを見つける。
このようなショートカットが適切なアーキテクチャ修正やデータ準備によって防止できることが分かりました。
論文 参考訳(メタデータ) (2022-06-09T06:30:17Z) - Model LEGO: Creating Models Like Disassembling and Assembling Building Blocks [53.09649785009528]
本稿では,新しいモデルを得るためのトレーニングを必要としないパラダイムについて検討する。
生体視覚系における受容野にインスパイアされたCNNの誕生と同様、モデル分解と組み立てを提案する。
モデル組立には、特定のタスクに適した新しいモデルを構築するために、アライメントパディング戦略とパラメータスケーリング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:27:28Z) - Brick-by-Brick: Combinatorial Construction with Deep Reinforcement
Learning [52.85981207514049]
我々は,ユニットプリミティブを逐次組み立てるビルディングエージェントを必要とする,新しい定式化,複雑な構成を導入する。
対象物を構築するために,エージェントに対して正確な情報や明示的な情報ではなく,所望の目標(すなわち2次元画像)に関する不完全な知識を提供する。
提案手法は,対象オブジェクトの1つの画像や複数ビューに条件付けされた未確認オブジェクトの構築に成功していることを示す。
論文 参考訳(メタデータ) (2021-10-29T01:09:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。