論文の概要: RAM-VO: Less is more in Visual Odometry
- arxiv url: http://arxiv.org/abs/2107.02974v1
- Date: Wed, 7 Jul 2021 01:48:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-09 01:38:39.526114
- Title: RAM-VO: Less is more in Visual Odometry
- Title(参考訳): ram-vo: less is more in visual odometry
- Authors: Iury Cleveston, Esther L. Colombini
- Abstract要約: 視覚オドメトリ (VO) アルゴリズムは入力画像からの視覚的変化のみを用いてエゴモーションを推定する。
最新のVO手法では、畳み込みニューラルネットワーク(CNN)を用いてディープラーニング技術を実装している。
本稿では,視覚計測のためのRAM-VO(Recurrent Attention Model)の拡張を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building vehicles capable of operating without human supervision requires the
determination of the agent's pose. Visual Odometry (VO) algorithms estimate the
egomotion using only visual changes from the input images. The most recent VO
methods implement deep-learning techniques using convolutional neural networks
(CNN) extensively, which add a substantial cost when dealing with
high-resolution images. Furthermore, in VO tasks, more input data does not mean
a better prediction; on the contrary, the architecture may filter out useless
information. Therefore, the implementation of computationally efficient and
lightweight architectures is essential. In this work, we propose the RAM-VO, an
extension of the Recurrent Attention Model (RAM) for visual odometry tasks.
RAM-VO improves the visual and temporal representation of information and
implements the Proximal Policy Optimization (PPO) algorithm to learn robust
policies. The results indicate that RAM-VO can perform regressions with six
degrees of freedom from monocular input images using approximately 3 million
parameters. In addition, experiments on the KITTI dataset demonstrate that
RAM-VO achieves competitive results using only 5.7% of the available visual
information.
- Abstract(参考訳): 人間の監督なしに運用できる車両を作るには、エージェントのポーズを決定する必要がある。
視覚オドメトリ (VO) アルゴリズムは入力画像からの視覚的変化のみを用いてエゴモーションを推定する。
最新のvo手法では畳み込みニューラルネットワーク(cnn)を用いたディープラーニング技術が広く実装されており、高解像度画像を扱う際にかなりのコストがかかる。
さらに、VOタスクでは、より多くの入力データがより良い予測を意味するわけではない。
したがって、計算効率が高く軽量なアーキテクチャの実装は不可欠である。
そこで本研究では,視覚計測のためのRAM-VO(Recurrent Attention Model)の拡張を提案する。
RAM-VOは情報の視覚的および時間的表現を改善し、堅牢なポリシーを学ぶためにPPOアルゴリズムを実装している。
その結果,RAM-VOは,約300万のパラメータを用いて,単眼入力画像から自由度6自由度で回帰できることがわかった。
さらに、KITTIデータセットの実験では、利用可能なビジュアル情報の5.7%しか使用せず、RAM-VOが競合する結果を達成することを示した。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Quanv4EO: Empowering Earth Observation by means of Quanvolutional Neural Networks [62.12107686529827]
本稿は、大量のリモートセンシングデータの処理において、量子コンピューティング技術を活用することへの大きなシフトを取り上げる。
提案したQuanv4EOモデルでは,多次元EOデータを前処理するための準進化法が導入された。
主要な知見は,提案モデルが画像分類の精度を維持するだけでなく,EOのユースケースの約5%の精度向上を図っていることを示唆している。
論文 参考訳(メタデータ) (2024-07-24T09:11:34Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-Like
Architectures [99.20299078655376]
本稿では、NLPフィールドで使用されるRWKVモデルから適応したVision-RWKVを紹介する。
我々のモデルは、スパース入力を効率的に処理し、ロバストなグローバル処理能力を実証するために設計されている。
評価の結果,VRWKVは画像分類におけるViTの性能を超え,高速化とメモリ使用量の削減を図っている。
論文 参考訳(メタデータ) (2024-03-04T18:46:20Z) - Memory-Efficient Continual Learning Object Segmentation for Long Video [7.9190306016374485]
本稿では,オンラインVOS手法のメモリ要求を低減し,長ビデオのモデリング精度と一般化を向上する2つの新しい手法を提案する。
事前学習した知識を保存するための継続的学習技術の成功に動機づけられた、Gated-Regularizer Continual Learning (GRCL)とRestruction-based Memory Selection Continual Learning (RMSCL)を提案する。
実験結果から,提案手法はオンラインVOSモデルの性能を8%以上向上し,長期画像データセットのロバスト性の向上を図っている。
論文 参考訳(メタデータ) (2023-09-26T21:22:03Z) - Toward Super-Resolution for Appearance-Based Gaze Estimation [4.594159253008448]
超解像度は視覚的観点から画質を改善することが示されている。
本稿では,SwinIR超解像モデルに基づく2段階のフレームワークを提案する。
自己教師付き学習は、ダウンストリームタスクに必要なラベル付きデータの量を減らすために、ラベルのないデータから学習することを目的としている。
論文 参考訳(メタデータ) (2023-03-17T17:40:32Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Off-policy Imitation Learning from Visual Inputs [83.22342811160114]
本稿では、政治以外の学習方法、データ拡張、エンコーダ技術からなるOPIfVIを提案する。
OPIfVIは、エキスパートレベルのパフォーマンスを実現し、既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-11-08T09:06:12Z) - Jointly Optimizing Preprocessing and Inference for DNN-based Visual
Analytics [24.62486707803304]
本研究では,現代のアクセラレータ上での視覚分析システムにおけるエンドツーエンドDNNの実行について検討する。
プリプロセッシングのボトルネックに対処するために、エンド・ツー・エンドのビジュアル・アナリティクス・システムに2つの最適化を導入する。
この最適化により,近年のビジュアル分析よりも,エンドツーエンドのスループットを最大5.9倍の精度で向上できることを示す。
論文 参考訳(メタデータ) (2020-07-25T20:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。