論文の概要: Efficient Deep Visual and Inertial Odometry with Adaptive Visual
Modality Selection
- arxiv url: http://arxiv.org/abs/2205.06187v1
- Date: Thu, 12 May 2022 16:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:40:31.026836
- Title: Efficient Deep Visual and Inertial Odometry with Adaptive Visual
Modality Selection
- Title(参考訳): 適応視覚モード選択を用いた高効率深部視覚・慣性オドメトリ
- Authors: Mingyu Yang, Yu Chen, Hun-Seok Kim
- Abstract要約: 本稿では,適応型深層学習に基づくVIO手法を提案する。
Gumbel-Softmax のトリックを用いてポリシーネットワークをトレーニングし、エンドツーエンドのシステムトレーニングで決定プロセスを差別化できるようにする。
実験結果から,本手法は全モードベースラインと同じような,あるいはさらに優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 12.754974372231647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep learning-based approaches for visual-inertial odometry
(VIO) have shown remarkable performance outperforming traditional geometric
methods. Yet, all existing methods use both the visual and inertial
measurements for every pose estimation incurring potential computational
redundancy. While visual data processing is much more expensive than that for
the inertial measurement unit (IMU), it may not always contribute to improving
the pose estimation accuracy. In this paper, we propose an adaptive
deep-learning based VIO method that reduces computational redundancy by
opportunistically disabling the visual modality. Specifically, we train a
policy network that learns to deactivate the visual feature extractor on the
fly based on the current motion state and IMU readings. A Gumbel-Softmax trick
is adopted to train the policy network to make the decision process
differentiable for end-to-end system training. The learned strategy is
interpretable, and it shows scenario-dependent decision patterns for adaptive
complexity reduction. Experiment results show that our method achieves a
similar or even better performance than the full-modality baseline with up to
78.8% computational complexity reduction for KITTI dataset evaluation. Our code
will be shared in https://github.com/mingyuyng/V isual-Selective-VIO
- Abstract(参考訳): 近年,視覚慣性計測(VIO)の深層学習によるアプローチは,従来の幾何学的手法よりも優れた性能を示している。
しかし、既存のすべての手法は、潜在的な計算冗長性をもたらす全てのポーズ推定に視覚的および慣性の測定の両方を用いる。
視覚データ処理は慣性測定ユニット(IMU)よりもはるかに高価であるが、必ずしもポーズ推定精度の向上に寄与するとは限らない。
本稿では,視覚モダリティを日和見的に解消することで計算冗長性を低減できる適応型深層学習型vio法を提案する。
具体的には、現在の動作状態とIMU読解に基づいて、視覚的特徴抽出器をオンザフライで不活性化させる政策ネットワークを訓練する。
Gumbel-Softmax のトリックを用いてポリシーネットワークをトレーニングし、エンドツーエンドのシステムトレーニングで決定プロセスを差別化できるようにする。
学習戦略は解釈可能であり、適応的な複雑性低減のためのシナリオ依存の意思決定パターンを示す。
実験の結果,本手法はkittiデータセットの計算複雑性を最大78.8%削減できるフルモダリティベースラインと同等あるいはそれ以上の性能が得られることがわかった。
私たちのコードはhttps://github.com/mingyuyng/V isual-Selective-VIOで共有されます。
関連論文リスト
- RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - Dynamic Multi-Scale Loss Optimization for Object Detection [14.256807110937622]
マルチスケール検出器訓練の客観的不均衡について検討する。
本稿では, 適応可変重み付け (AVW) を提案する。
トレーニング中に重み付け方式を確率的に決定する新しい強化学習最適化(RLO)を開発した。
論文 参考訳(メタデータ) (2021-08-09T13:12:41Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - Generalizing to the Open World: Deep Visual Odometry with Online
Adaptation [27.22639812204019]
本稿では,シーン非依存な幾何計算とベイズ推論の助けを借りて,ディープvoのオンライン適応フレームワークを提案する。
本手法は,自己監視型VO法における最先端の一般化能力を実現する。
論文 参考訳(メタデータ) (2021-03-29T02:13:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。