論文の概要: Learning 3D Robotics Perception using Inductive Priors
- arxiv url: http://arxiv.org/abs/2405.20364v1
- Date: Thu, 30 May 2024 17:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 18:44:15.878463
- Title: Learning 3D Robotics Perception using Inductive Priors
- Title(参考訳): インダクティブプライオリティを用いた3次元ロボット認識の学習
- Authors: Muhammad Zubair Irshad,
- Abstract要約: この論文は、構造化された帰納的バイアスと設計アプローチとアルゴリズムの先行による学習のトピックをカバーしている。
3つの異なるロボット認識問題における事前知識の活用を実証する。
ロボット工学の3D知覚タスクを解くためのこれらの先行研究を行い、それらをディープラーニングモデルに効率的にエンコードする方法を提案する。
- 参考スコア(独自算出の注目度): 3.1908919831471474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning have led to a data-centric intelligence i.e. artificially intelligent models unlocking the potential to ingest a large amount of data and be really good at performing digital tasks such as text-to-image generation, machine-human conversation, and image recognition. This thesis covers the topic of learning with structured inductive bias and priors to design approaches and algorithms unlocking the potential of principle-centric intelligence. Prior knowledge (priors for short), often available in terms of past experience as well as assumptions of how the world works, helps the autonomous agent generalize better and adapt their behavior based on past experience. In this thesis, I demonstrate the use of prior knowledge in three different robotics perception problems. 1. object-centric 3D reconstruction, 2. vision and language for decision-making, and 3. 3D scene understanding. To solve these challenging problems, I propose various sources of prior knowledge including 1. geometry and appearance priors from synthetic data, 2. modularity and semantic map priors and 3. semantic, structural, and contextual priors. I study these priors for solving robotics 3D perception tasks and propose ways to efficiently encode them in deep learning models. Some priors are used to warm-start the network for transfer learning, others are used as hard constraints to restrict the action space of robotics agents. While classical techniques are brittle and fail to generalize to unseen scenarios and data-centric approaches require a large amount of labeled data, this thesis aims to build intelligent agents which require very-less real-world data or data acquired only from simulation to generalize to highly dynamic and cluttered environments in novel simulations (i.e. sim2sim) or real-world unseen environments (i.e. sim2real) for a holistic scene understanding of the 3D world.
- Abstract(参考訳): 近年のディープラーニングの進歩は、データ中心のインテリジェンス、すなわち、大量のデータを取り込む可能性を解き明かし、テキスト・ツー・イメージ生成、機械学習、画像認識といったデジタルタスクを非常に得意とする人工知能モデルを生み出している。
この論文では、構造化帰納的バイアスと設計アプローチやアルゴリズムに先立って、原則中心の知能の可能性を解き放つことによる学習のトピックを取り上げている。
以前の知識(略して)は、過去の経験や世界がどのように機能するかの仮定でしばしば利用でき、自律的なエージェントがより一般化し、過去の経験に基づいて行動を適用するのに役立つ。
本論では,3つのロボット認識問題において,先行知識の活用を実証する。
オブジェクト中心の3D再構成
2.意思決定のためのビジョンと言語、及び
3次元映像理解
これらの課題を解決するために、私は様々な事前知識の源泉を提案する。
1. 合成データから得られる幾何学的・外見的先行
2.モジュール性とセマンティックマップ
3. 意味的、構造的、文脈的先行
ロボット工学の3D知覚タスクを解くためのこれらの先行研究を行い、それらをディープラーニングモデルに効率的にエンコードする方法を提案する。
移動学習のためのネットワークのウォームスタートに先立って使われるものもあれば、ロボットエージェントの動作空間を制限するための制約として使われるものもある。
古典的な手法は不安定であり、データ中心のアプローチでは大量のラベル付きデータを必要とするが、この論文は、新しいシミュレーション(sim2sim)や実世界の見えない環境(sim2real)において、シミュレーションから取得した、非常に無数の現実世界のデータやデータを必要とするインテリジェントなエージェントを構築することを目的としている。
関連論文リスト
- RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。
実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Sim2real Transfer Learning for Point Cloud Segmentation: An Industrial
Application Case on Autonomous Disassembly [55.41644538483948]
我々は,点クラウドデータにsim2realTransfer Learningを用いた産業アプリケーションケースを提案する。
合成ポイントクラウドデータの生成と処理方法に関する洞察を提供する。
この問題に対処するために、パッチベースの新しいアテンションネットワークも提案されている。
論文 参考訳(メタデータ) (2023-01-12T14:00:37Z) - Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。
提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文 参考訳(メタデータ) (2022-06-09T16:05:35Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - 3D_DEN: Open-ended 3D Object Recognition using Dynamically Expandable
Networks [0.0]
本研究では,新しい3Dオブジェクトカテゴリをオープンエンドで学習できるロボットを実現するために,動的アーキテクチャに基づく新しい深層移動学習手法を提案する。
実験結果から,提案手法は精度に優れ,計算オーバーヘッドを大幅に最小化できることがわかった。
論文 参考訳(メタデータ) (2020-09-15T16:44:18Z) - Low Dimensional State Representation Learning with Reward-shaped Priors [7.211095654886105]
本研究では,観測結果から低次元状態空間への写像の学習を目的とした手法を提案する。
このマッピングは、環境とタスクの事前知識を組み込むために形作られた損失関数を用いて教師なしの学習で学習される。
本手法は,シミュレーション環境における移動ロボットナビゲーションタスクおよび実ロボット上でのテストを行う。
論文 参考訳(メタデータ) (2020-07-29T13:00:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。