論文の概要: Augmenting Imitation Experience via Equivariant Representations
- arxiv url: http://arxiv.org/abs/2110.07668v1
- Date: Thu, 14 Oct 2021 18:56:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 14:41:21.960339
- Title: Augmenting Imitation Experience via Equivariant Representations
- Title(参考訳): 等価表現による模倣体験の促進
- Authors: Dhruv Sharma, Alihusein Kuwajerwala, Florian Shkurti
- Abstract要約: 近辺の視点埋め込みと行動の補間に基づく視覚ナビゲーションのためのデータ拡張には、別の実用的な代替方法があることが示される。
本手法は,2次元および3次元の視覚ナビゲーション問題の幾何学的形状を利用し,同変埋め込みの関数であるポリシーに依存している。
シミュレーションの結果、この方法でトレーニングしたポリシーは、クロストラックエラーを低減し、標準拡張法でトレーニングしたポリシーに比べて介入を少なくすることを示した。
- 参考スコア(独自算出の注目度): 2.707154152696381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The robustness of visual navigation policies trained through imitation often
hinges on the augmentation of the training image-action pairs. Traditionally,
this has been done by collecting data from multiple cameras, by using standard
data augmentations from computer vision, such as adding random noise to each
image, or by synthesizing training images. In this paper we show that there is
another practical alternative for data augmentation for visual navigation based
on extrapolating viewpoint embeddings and actions nearby the ones observed in
the training data. Our method makes use of the geometry of the visual
navigation problem in 2D and 3D and relies on policies that are functions of
equivariant embeddings, as opposed to images. Given an image-action pair from a
training navigation dataset, our neural network model predicts the latent
representations of images at nearby viewpoints, using the equivariance
property, and augments the dataset. We then train a policy on the augmented
dataset. Our simulation results indicate that policies trained in this way
exhibit reduced cross-track error, and require fewer interventions compared to
policies trained using standard augmentation methods. We also show similar
results in autonomous visual navigation by a real ground robot along a path of
over 500m.
- Abstract(参考訳): 模倣によって訓練された視覚ナビゲーションポリシーの堅牢性は、しばしば訓練された画像-アクションペアの増強に影響を及ぼす。
伝統的に、これは複数のカメラからのデータ収集、コンピュータビジョンからの標準的なデータ拡張、例えば各画像にランダムノイズを加えたり、トレーニング画像の合成によって行われてきた。
本稿では,学習データに観察された視点埋め込みと動作の補間に基づいて,視覚的ナビゲーションのためのデータ拡張のための別の実用的な方法を提案する。
本手法は,2次元および3次元の視覚ナビゲーション問題の幾何学的形状を利用して,同変埋め込みの関数であるポリシーに依存している。
トレーニングナビゲーションデータセットからイメージアクションペアが与えられた場合、ニューラルネットワークモデルは、同分散特性を用いて、近くの視点での画像の潜時表現を予測し、データセットを増強する。
次に、拡張データセットのポリシーをトレーニングします。
シミュレーションの結果,この方法で訓練されたポリシーはクロストラックエラーを低減し,標準強化法で訓練されたポリシーに比べて介入が少なくなることが示された。
また,実地ロボットによる自律視覚ナビゲーションにおいても,500m以上の経路に沿って同様の結果を示す。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Learning Cross-Scale Visual Representations for Real-Time Image
Geo-Localization [21.375640354558044]
局所センサに基づく状態推定手法は、誤差が蓄積されるにつれて長距離ミッションがドリフトする傾向にある。
クロススケールなデータセットと、クロスモダリティソースから追加データを生成する手法を紹介する。
本稿では,監督なしに大規模視覚表現を学習するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T08:08:54Z) - Recognizing Actions in Videos from Unseen Viewpoints [80.6338404141284]
本研究では,現在の畳み込みニューラルネットワークモデルでは,トレーニングデータに存在しないカメラ視点からの動作を認識できないことを示す。
視認不能な認識のための新しいデータセットを導入し、視点不変表現を学習するアプローチ能力を示す。
論文 参考訳(メタデータ) (2021-03-30T17:17:54Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - A Sim2Real Deep Learning Approach for the Transformation of Images from
Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's
Eye View [0.0]
カメラの視点を鳥の視線(BEV)に変換すると、距離をより容易に推定できる。
本稿では,複数の車載カメラから補正された360度BEV画像を得る方法について述べる。
ニューラルネットワークのアプローチは、手動でラベル付けされたデータに頼るのではなく、実世界のデータに対してうまく一般化するように、合成データセットでトレーニングされる。
論文 参考訳(メタデータ) (2020-05-08T14:54:13Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。