論文の概要: Representation Learning for Event-based Visuomotor Policies
- arxiv url: http://arxiv.org/abs/2103.00806v1
- Date: Mon, 1 Mar 2021 07:04:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:06:07.312303
- Title: Representation Learning for Event-based Visuomotor Policies
- Title(参考訳): イベントベースビゾモフタポリシのための表現学習
- Authors: Sai Vemprala, Sami Mian, Ashish Kapoor
- Abstract要約: 非同期イベントデータからの教師なし表現のためのイベント自動コーダを提案する。
テンポラリなイベントデータからコンテクストのエンコードまで,コンパクトな表現を学習することが可能であることを示す。
シミュレーションで障害物回避シナリオに適用することにより、この枠組みの学習のバイスモモモターポリシーを検証します。
- 参考スコア(独自算出の注目度): 18.4767874925189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event-based cameras are dynamic vision sensors that can provide asynchronous
measurements of changes in per-pixel brightness at a microsecond level. This
makes them significantly faster than conventional frame-based cameras, and an
appealing choice for high-speed navigation. While an interesting sensor
modality, this asynchronous data poses a challenge for common machine learning
techniques. In this paper, we present an event variational autoencoder for
unsupervised representation learning from asynchronous event camera data. We
show that it is feasible to learn compact representations from spatiotemporal
event data to encode the context. Furthermore, we show that such pretrained
representations can be beneficial for navigation, allowing for usage in
reinforcement learning instead of end-to-end reward driven perception. We
validate this framework of learning visuomotor policies by applying it to an
obstacle avoidance scenario in simulation. We show that representations learnt
from event data enable training fast control policies that can adapt to
different control capacities, and demonstrate a higher degree of robustness
than end-to-end learning from event images.
- Abstract(参考訳): イベントベースのカメラは動的視覚センサであり、マイクロ秒レベルで画素ごとの明るさの変化を非同期で測定することができる。
これにより、従来のフレームベースのカメラよりも大幅に高速になり、高速ナビゲーションに向いている。
興味深いセンサーのモダリティはあるものの、この非同期データは一般的な機械学習技術に課題をもたらす。
本稿では,非同期なイベントカメラデータから教師なし表現学習を行うイベント変分オートエンコーダを提案する。
時空間イベントデータからコンテクストをエンコードするためにコンパクト表現を学習することは可能であることを示す。
さらに,このような事前訓練された表現がナビゲーションに有用であることを示し,エンドツーエンドの報酬駆動認識の代わりに強化学習での使用を可能にする。
シミュレーションで障害物回避シナリオに適用することにより、この枠組みの学習のバイスモモモターポリシーを検証します。
イベントデータから学習した表現は,異なる制御能力に適応可能な高速制御ポリシのトレーニングを可能にし,イベント画像からのエンドツーエンド学習よりも高い堅牢性を示す。
関連論文リスト
- E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - Relating Events and Frames Based on Self-Supervised Learning and
Uncorrelated Conditioning for Unsupervised Domain Adaptation [23.871860648919593]
イベントベースのカメラは、コンピュータビジョンタスクを実行するための正確かつ高時間分解能の測定を提供する。
それらの利点にもかかわらず、イベントベースのビジョンにディープラーニングを活用することは、注釈付きデータの不足のために大きな障害に直面する。
本稿では、イベントベースの未注釈データに基づいて、注釈付きフレームベースのデータに基づいてトレーニングされたディープニューラルネットワークを適用するための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-02T05:10:08Z) - Event Camera Data Dense Pre-training [10.918407820258246]
本稿では,イベントカメラデータを用いた高密度予測タスクに適したニューラルネットワークの事前学習を目的とした,自己教師付き学習フレームワークを提案する。
フレームワークをトレーニングするために、さまざまなシーンと動きパターンを特徴とする合成イベントカメラデータセットをキュレートする。
論文 参考訳(メタデータ) (2023-11-20T04:36:19Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Unsupervised Domain Adaptation for Training Event-Based Networks Using
Contrastive Learning and Uncorrelated Conditioning [12.013345715187285]
イベントベースのビジョンにおけるディープラーニングは、イベントカメラの正確性による注釈付きデータの不足という課題に直面している。
イベントベースデータ画像分類のための深層ネットワークを訓練するための教師なし領域適応アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-03-22T09:51:08Z) - Combining Events and Frames using Recurrent Asynchronous Multimodal
Networks for Monocular Depth Prediction [51.072733683919246]
複数のセンサからの非同期および不規則なデータを処理するために、リカレント非同期マルチモーダル(RAM)ネットワークを導入する。
従来のRNNにインスパイアされたRAMネットワークは、非同期に更新され、予測を生成するためにいつでもクエリできる隠れ状態を維持している。
平均深度絶対誤差において,最先端手法を最大30%改善することを示す。
論文 参考訳(メタデータ) (2021-02-18T13:24:35Z) - Learning Monocular Dense Depth from Events [53.078665310545745]
イベントカメラは、強度フレームではなく、非同期イベントのストリームの形式で輝度を変化させる。
最近の学習に基づくアプローチは、単眼深度予測のようなイベントベースのデータに適用されている。
本稿では,この課題を解決するための繰り返しアーキテクチャを提案し,標準フィードフォワード法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-16T12:36:23Z) - Unsupervised Feature Learning for Event Data: Direct vs Inverse Problem
Formulation [53.850686395708905]
イベントベースのカメラは、ピクセルごとの明るさ変化の非同期ストリームを記録する。
本稿では,イベントデータからの表現学習のための単一層アーキテクチャに焦点を当てる。
我々は,最先端手法と比較して,認識精度が最大9%向上したことを示す。
論文 参考訳(メタデータ) (2020-09-23T10:40:03Z) - Event-based Asynchronous Sparse Convolutional Networks [54.094244806123235]
イベントカメラはバイオインスパイアされたセンサーで、非同期でスパースな「イベント」の形で画素ごとの明るさ変化に反応する。
同期画像のようなイベント表現で訓練されたモデルを、同じ出力を持つ非同期モデルに変換するための一般的なフレームワークを提案する。
理論的および実験的に、これは高容量同期ニューラルネットワークの計算複雑性と遅延を大幅に減少させることを示す。
論文 参考訳(メタデータ) (2020-03-20T08:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。