論文の概要: BIT-VO: Visual Odometry at 300 FPS using Binary Features from the Focal
Plane
- arxiv url: http://arxiv.org/abs/2004.11186v1
- Date: Thu, 23 Apr 2020 14:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:57:03.251151
- Title: BIT-VO: Visual Odometry at 300 FPS using Binary Features from the Focal
Plane
- Title(参考訳): BIT-VO:焦点面の2成分特徴を用いた300FPSの視覚計測
- Authors: Riku Murai, Sajad Saeedi, Paul H. J. Kelly
- Abstract要約: Focal-plane Sensor-processor (FPSP) は、センサチップ上のすべてのピクセルが並列に計算を行うことを可能にする次世代カメラ技術である。
FPSPを利用した最初の6自由度ビジュアルオドメトリーアルゴリズムであるBIT-VOを提案する。
- 参考スコア(独自算出の注目度): 3.759936323189417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Focal-plane Sensor-processor (FPSP) is a next-generation camera technology
which enables every pixel on the sensor chip to perform computation in
parallel, on the focal plane where the light intensity is captured. SCAMP-5 is
a general-purpose FPSP used in this work and it carries out computations in the
analog domain before analog to digital conversion. By extracting features from
the image on the focal plane, data which is digitized and transferred is
reduced. As a consequence, SCAMP-5 offers a high frame rate while maintaining
low energy consumption. Here, we present BIT-VO, which is, to the best of our
knowledge, the first 6 Degrees of Freedom visual odometry algorithm which
utilises the FPSP. Our entire system operates at 300 FPS in a natural scene,
using binary edges and corner features detected by the SCAMP-5.
- Abstract(参考訳): focal-plane sensor-processor (fpsp) は、センサーチップ上の全ての画素が光強度をキャプチャした焦点平面上で並列に計算できる次世代カメラ技術である。
SCAMP-5は、この研究で使用される汎用FPSPであり、アナログ変換に先立ってアナログ領域で計算を実行する。
焦点面上の画像から特徴を抽出することにより、デジタル化し転送するデータを低減させる。
その結果、SCAMP-5は低消費電力を維持しながら高いフレームレートを提供する。
ここでは,FPSPを利用した最初の6自由度ビジュアルオドメトリーアルゴリズムであるBIT-VOを提案する。
システム全体の動作速度は300fpsで,scamp-5で検出された2値エッジとコーナー機能を用いています。
関連論文リスト
- Energy-Efficient & Real-Time Computer Vision with Intelligent Skipping via Reconfigurable CMOS Image Sensors [5.824962833043625]
ビデオベースのコンピュータビジョンアプリケーションは、一般的に、その重要性に関わらず、フレーム内のすべてのピクセルを読み、処理するため、高エネルギー消費に悩まされる。
従来の作業では、入力パッチやピクセルをスキップし、最終タスクからのフィードバックを使ってスキップアルゴリズムをガイドすることで、このエネルギーを削減しようとしていた。
本稿では,センサの読み出しフェーズにおいて,フレーム内の不規則領域や行を選択的にスキップすることで,エネルギー効率を向上させるカスタムデザインCMOSイメージセンサ(CIS)システムを提案する。
論文 参考訳(メタデータ) (2024-09-25T20:32:55Z) - Multi-Modal Neural Radiance Field for Monocular Dense SLAM with a
Light-Weight ToF Sensor [58.305341034419136]
単眼カメラと軽量ToFセンサを備えた初の高密度SLAMシステムを提案する。
本稿では,RGBカメラと軽量ToFセンサの両方の信号のレンダリングをサポートするマルチモーダル暗黙のシーン表現を提案する。
実験により,本システムは軽量なToFセンサの信号をうまく利用し,競合的な結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-28T07:56:13Z) - Real-Time Radiance Fields for Single-Image Portrait View Synthesis [85.32826349697972]
本研究では,1つの未提示画像からリアルタイムに3D表現を推測・描画するワンショット手法を提案する。
一つのRGB入力が与えられた場合、画像エンコーダは、ボリュームレンダリングによる3次元新規ビュー合成のためのニューラルラディアンスフィールドの標準三面体表現を直接予測する。
提案手法は消費者ハードウェア上で高速(24fps)であり,テスト時間最適化を必要とする強力なGAN反転ベースラインよりも高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T17:56:01Z) - A direct time-of-flight image sensor with in-pixel surface detection and
dynamic vision [0.0]
3DフラッシュLIDARは、従来の走査型LIDARシステムに代わるもので、コンパクトなフォームファクターで正確な深度イメージングを約束する。
我々は,64x32ピクセル (256x128 SPAD) dToF イメージラを組込みヒストグラムを用いた画素を用いて,これらの制限を克服する。
これにより出力データフレームのサイズが大幅に小さくなり、10kFPS範囲の最大フレームレートや100kFPSの直接深度読み取りが可能となる。
論文 参考訳(メタデータ) (2022-09-23T14:38:00Z) - Attribute Surrogates Learning and Spectral Tokens Pooling in
Transformers for Few-shot Learning [50.95116994162883]
ビジョントランスフォーマーは、視覚認識のための畳み込みニューラルネットワークに代わる有望な選択肢だと考えられている。
本稿では,スペクトルトークンプールによる固有画像構造を利用した階層的カスケード変換器を提案する。
HCTransformersはDINOベースラインを9.7%の5ウェイの1ショット精度と9.17%の5ウェイの5ショット精度で上回っている。
論文 参考訳(メタデータ) (2022-03-17T03:49:58Z) - TUM-VIE: The TUM Stereo Visual-Inertial Event Dataset [50.8779574716494]
イベントカメラはバイオインスパイアされた視覚センサーで、ピクセルごとの明るさの変化を測定する。
これらは、低レイテンシ、高ダイナミックレンジ、高時間分解能、低消費電力など、従来のフレームベースのカメラよりも多くの利点を提供する。
イベントカメラを用いた3次元認識・ナビゲーションアルゴリズムの開発を促進するため,TUM-VIEデータセットを提案する。
論文 参考訳(メタデータ) (2021-08-16T19:53:56Z) - High-speed object detection with a single-photon time-of-flight image
sensor [2.648554238948439]
我々は,64×32の空間解像度で16ビンの光子タイミングヒストグラムを出力する携帯型SPADカメラシステムの結果を報告する。
結果は、人間の反応時間よりも早く恩恵を受けるであろう安全クリティカルなコンピュータビジョンアプリケーションに関係している。
論文 参考訳(メタデータ) (2021-07-28T14:53:44Z) - Time-Multiplexed Coded Aperture Imaging: Learned Coded Aperture and
Pixel Exposures for Compressive Imaging Systems [56.154190098338965]
提案した時間多重符号化開口(TMCA)をエンドツーエンドで最適化できることを示した。
tmcaは圧縮光野イメージングとハイパースペクトルイメージングの2つの異なる応用において、より良いコード化されたスナップショットを誘導する。
この凝固法は、最先端の圧縮画像システムよりも4dB以上性能が高い。
論文 参考訳(メタデータ) (2021-04-06T22:42:34Z) - An Ultra Fast Low Power Convolutional Neural Network Image Sensor with
Pixel-level Computing [3.41234610095684]
本稿では,カラム読み出し回路前の畳み込み動作を可能にし,画像読み出し速度を大幅に向上できるpip( processing-in-pixel) cmosセンサアーキテクチャを提案する。
言い換えれば、計算効率は4.75 TOPS/wであり、最先端の約3.6倍である。
論文 参考訳(メタデータ) (2021-01-09T07:10:03Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z) - Fully Embedding Fast Convolutional Networks on Pixel Processor Arrays [16.531637803429277]
本稿では,PPA(Pixel processor array)視覚センサのための新しいCNN推論手法を提案する。
提案手法は, 畳み込み層, 最大プーリング, ReLu, およびPPAセンサ上に完全に接続された最終層を実現する。
これは、外部処理を必要としないPPA視覚センサデバイスのプロセッサアレイで完全に行われたCNN推論を示す最初の研究である。
論文 参考訳(メタデータ) (2020-04-27T01:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。