論文の概要: SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency
- arxiv url: http://arxiv.org/abs/2112.01001v1
- Date: Thu, 2 Dec 2021 06:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 03:50:46.959137
- Title: SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency
- Title(参考訳): SEAL:探索と3次元一貫性を用いた自己教師型身体活動学習
- Authors: Devendra Singh Chaplot, Murtaza Dalal, Saurabh Gupta, Jitendra Malik,
Ruslan Salakhutdinov
- Abstract要約: 本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
- 参考スコア(独自算出の注目度): 122.18108118190334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore how we can build upon the data and models of
Internet images and use them to adapt to robot vision without requiring any
extra labels. We present a framework called Self-supervised Embodied Active
Learning (SEAL). It utilizes perception models trained on internet images to
learn an active exploration policy. The observations gathered by this
exploration policy are labelled using 3D consistency and used to improve the
perception model. We build and utilize 3D semantic maps to learn both action
and perception in a completely self-supervised manner. The semantic map is used
to compute an intrinsic motivation reward for training the exploration policy
and for labelling the agent observations using spatio-temporal 3D consistency
and label propagation. We demonstrate that the SEAL framework can be used to
close the action-perception loop: it improves object detection and instance
segmentation performance of a pretrained perception model by just moving around
in training environments and the improved perception model can be used to
improve Object Goal Navigation.
- Abstract(参考訳): 本稿では,インターネット画像のデータとモデルを構築し,ラベルを余分に必要とせずにロボットビジョンに適応させる方法について検討する。
本稿では,SEAL(Self-supervised Embodied Active Learning)というフレームワークを提案する。
インターネットイメージでトレーニングされた知覚モデルを使用して、積極的な探索ポリシーを学習する。
この探索政策によって収集された観測は、3次元の一貫性を用いてラベル付けされ、知覚モデルを改善するために使用される。
我々は3Dセマンティックマップを構築し、完全に自己管理された方法で行動と知覚の両方を学習する。
セマンティックマップは、探索政策の訓練や、時空間の3D一貫性とラベル伝搬を用いたエージェント観察のラベル付けのための本質的なモチベーション報酬を計算するために使用される。
学習環境内を移動するだけで、事前学習された知覚モデルのオブジェクト検出とインスタンスセグメンテーション性能が向上し、対象目標のナビゲーションを改善するために改良された知覚モデルが使用できる。
関連論文リスト
- ActNetFormer: Transformer-ResNet Hybrid Method for Semi-Supervised Action Recognition in Videos [4.736059095502584]
本研究は,半教師付き行動認識のためのコントラスト学習を用いたクロスアーキテクチャ擬似ラベルを用いた新しい手法を提案する。
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)とビデオトランスフォーマー(VIT)を用いて,アクション表現の異なる側面を捉える,新しいクロスアーキテクチャ手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T12:09:56Z) - Motion Degeneracy in Self-supervised Learning of Elevation Angle
Estimation for 2D Forward-Looking Sonar [4.683630397028384]
本研究は, 合成画像を用いた事前学習を行なわずに, 高度角推定の安定な自己教師付き学習を実現することを目的とする。
まず,主監督信号に関連する2次元前方ソナーの運動場を解析する。
論文 参考訳(メタデータ) (2023-07-30T08:06:11Z) - An Empirical Study of Pseudo-Labeling for Image-based 3D Object
Detection [72.30883544352918]
異なる条件下で,擬似ラベルがベースラインモデルに対して効果的に監視できるかどうかを検討する。
ベルとホイッスルを使わずにKITTI-3Dテストセットの適度なレベルを20.23 APで達成し、ベースラインモデルを6.03 APで改善した。
この研究が、半教師付き環境下で画像に基づく3D検出コミュニティに洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2022-08-15T12:17:46Z) - Paint and Distill: Boosting 3D Object Detection with Semantic Passing
Network [70.53093934205057]
ライダーやカメラセンサーからの3Dオブジェクト検出タスクは、自動運転に不可欠である。
本研究では,既存のライダーベース3D検出モデルの性能向上を図るために,SPNetという新しいセマンティックパスフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-12T12:35:34Z) - 3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。
我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。
KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-05-02T07:53:29Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Hindsight for Foresight: Unsupervised Structured Dynamics Models from
Physical Interaction [24.72947291987545]
エージェントが世界と対話することを学ぶための鍵となる課題は、オブジェクトの物理的性質を推論することである。
本研究では,ラベルのない3次元点群と画像から直接,ロボットのインタラクションのダイナミクスをモデル化するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-02T11:04:49Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。