論文の概要: Event Camera as Region Proposal Network
- arxiv url: http://arxiv.org/abs/2305.00718v1
- Date: Mon, 1 May 2023 08:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:43:17.613010
- Title: Event Camera as Region Proposal Network
- Title(参考訳): 地域提案ネットワークとしてのイベントカメラ
- Authors: Shrutarv Awasthi, Anas Gouda, Richard Julian Lodenkaemper, Moritz
Roidl
- Abstract要約: コンピュータービジョンにおけるイベントカメラとカラーカメラは、人間のビジョンにおける棒や円錐のようなものだ。
ロッドは人間の視覚における領域提案ネットワーク(RPN)として機能する。
この作業は、検出ロン2のMask-RCNNのRPNをイベントカメラに置き換え、移動物体の提案を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human eye consists of two types of photoreceptors, rods and cones. Rods
are responsible for monochrome vision, and cones for color vision. The number
of rods is much higher than the cones, which means that most human vision
processing is done in monochrome. An event camera reports the change in pixel
intensity and is analogous to rods. Event and color cameras in computer vision
are like rods and cones in human vision. Humans can notice objects moving in
the peripheral vision (far right and left), but we cannot classify them (think
of someone passing by on your far left or far right, this can trigger your
attention without knowing who they are). Thus, rods act as a region proposal
network (RPN) in human vision. Therefore, an event camera can act as a region
proposal network in deep learning Two-stage object detectors in deep learning,
such as Mask R-CNN, consist of a backbone for feature extraction and a RPN.
Currently, RPN uses the brute force method by trying out all the possible
bounding boxes to detect an object. This requires much computation time to
generate region proposals making two-stage detectors inconvenient for fast
applications. This work replaces the RPN in Mask-RCNN of detectron2 with an
event camera for generating proposals for moving objects. Thus, saving time and
being computationally less expensive. The proposed approach is faster than the
two-stage detectors with comparable accuracy
- Abstract(参考訳): 人間の目は2種類の光受容体、棒、錐体から構成される。
ロッドはモノクロームビジョン、コーンはカラービジョンを担当している。
棒の数は円錐よりもはるかに多く、ほとんどの人間の視覚処理はモノクロームで行われている。
イベントカメラは、ピクセル強度の変化を報告し、棒に似ている。
コンピュータービジョンにおけるイベントカメラとカラーカメラは、人間のビジョンにおける棒や円錐のようなものだ。
人間は周囲の視界(右と左)で動く物体に気づくことができるが、それらを分類することはできない(左や右の端を通り過ぎても、自分が誰かを知らないまま注意を喚起できる)。
このように、ロッドは人間の視覚における領域提案ネットワーク(RPN)として機能する。
したがって、イベントカメラは、Mask R-CNNのような深層学習における2段階物体検出器において、特徴抽出のためのバックボーンとRPNからなる領域提案ネットワークとして機能することができる。
現在、RPNは、オブジェクトを検出するためのすべてのバウンディングボックスを試すことで、ブルートフォースメソッドを使用している。
これは、2段階検出器を高速な用途に不都合にする領域の提案を生成するのに多くの計算時間を必要とする。
この作業は、検出ロン2のMask-RCNNのRPNをイベントカメラに置き換え、移動物体の提案を生成する。
したがって、時間を節約し、計算コストを下げる。
提案手法は2段検出器よりも高速で精度は同等である
関連論文リスト
- PathFinder: Attention-Driven Dynamic Non-Line-of-Sight Tracking with a Mobile Robot [3.387892563308912]
注目型ニューラルネットワークを用いてLOS(Line-of-sight)ビデオにおける動的逐次フレームのシーケンスを処理する新しい手法を提案する。
我々は,映像撮影のためのドローンによる現場撮影のアプローチを検証し,ダイナミックキャプチャ環境での低コストなNLOSイメージングを実証した。
論文 参考訳(メタデータ) (2024-04-07T17:31:53Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Recognizing Scenes from Novel Viewpoints [99.90914180489456]
人間は、少数の2Dビューから3Dのシーンを知覚することができる。AIエージェントは、少数の画像しか持たない任意の視点からシーンを認識することで、シーンとそのオブジェクトと効率的に対話することができる。
本稿では,新しいシーンのいくつかのRGB画像を入力として取り込んで,そのシーンを意味カテゴリーに分類することで,新たな視点から認識するモデルを提案する。
論文 参考訳(メタデータ) (2021-12-02T18:59:40Z) - Cross-Camera Feature Prediction for Intra-Camera Supervised Person
Re-identification across Distant Scenes [70.30052164401178]
人物再識別(Re-ID)は、重複しないカメラビュー間で人物画像をマッチングすることを目的としている。
ICS-DS Re-IDは、カメラ内IDラベル付きクロスカメラアンペアデータを使用してトレーニングを行う。
カメラ横断型自己監視情報マイニングのためのクロスカメラ特徴予測法
グローバルレベルの特徴とローカルレベルの特徴の合同学習は、グローバルなローカルなクロスカメラ特徴予測スキームを形成する。
論文 参考訳(メタデータ) (2021-07-29T11:27:50Z) - We don't Need Thousand Proposals$\colon$ Single Shot Actor-Action
Detection in Videos [0.0]
SSA2Dは、ビデオ中のアクター・アクション検出のための、シンプルだが効果的なエンド・ツー・エンドのディープ・ネットワークである。
SSA2Dは、単一ショットでピクセルレベルの共同アクターアクション検出を行う統一ネットワークである。
提案手法は,アクター・アクション・データセット(A2D)とビデオオブジェクト・リレーショナル・データセット(VidOR)で評価する。
論文 参考訳(メタデータ) (2020-11-22T03:53:40Z) - When CNNs Meet Random RNNs: Towards Multi-Level Analysis for RGB-D
Object and Scene Recognition [10.796613905980609]
オブジェクトおよびシーン認識タスクのための多モードRGB-D画像から識別的特徴表現を抽出する新しいフレームワークを提案する。
CNNアクティベーションの高次元性に対応するため、ランダムな重み付けプール方式が提案されている。
実験では、RNNステージにおける完全ランダム化構造がCNNアクティベーションを符号化し、識別的ソリッドな特徴を成功させることを確認した。
論文 参考訳(メタデータ) (2020-04-26T10:58:27Z) - Footprints and Free Space from a Single Color Image [32.57664001590537]
入力として1つのRGB画像が与えられた場合、可視面と隠蔽面の両方の形状を予測するモデルを導入する。
ステレオビデオシーケンスから、カメラポーズ、フレームごとの深さ、セマンティックセグメンテーションを用いて学習し、トレーニングデータを形成する。
トレーニングシーンの空間的カバレッジには驚くほど低いバーが必要であることが分かりました。
論文 参考訳(メタデータ) (2020-04-14T09:29:17Z) - Matching Neuromorphic Events and Color Images via Adversarial Learning [49.447580124957966]
本稿では,イベントベース画像検索(EBIR)問題を提案する。
ニューロモルフィックイベント・カラー画像特徴学習(ECFL)によるEBIR問題に対処する。
また,EBIR問題の発展を促進するため,コミュニティN-UKbenchとEC180データセットにも貢献する。
論文 参考訳(メタデータ) (2020-03-02T02:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。