論文の概要: Efficient Deep Visual and Inertial Odometry with Adaptive Visual
Modality Selection
- arxiv url: http://arxiv.org/abs/2205.06187v1
- Date: Thu, 12 May 2022 16:17:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-13 13:40:31.026836
- Title: Efficient Deep Visual and Inertial Odometry with Adaptive Visual
Modality Selection
- Title(参考訳): 適応視覚モード選択を用いた高効率深部視覚・慣性オドメトリ
- Authors: Mingyu Yang, Yu Chen, Hun-Seok Kim
- Abstract要約: 本稿では,適応型深層学習に基づくVIO手法を提案する。
Gumbel-Softmax のトリックを用いてポリシーネットワークをトレーニングし、エンドツーエンドのシステムトレーニングで決定プロセスを差別化できるようにする。
実験結果から,本手法は全モードベースラインと同じような,あるいはさらに優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 12.754974372231647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, deep learning-based approaches for visual-inertial odometry
(VIO) have shown remarkable performance outperforming traditional geometric
methods. Yet, all existing methods use both the visual and inertial
measurements for every pose estimation incurring potential computational
redundancy. While visual data processing is much more expensive than that for
the inertial measurement unit (IMU), it may not always contribute to improving
the pose estimation accuracy. In this paper, we propose an adaptive
deep-learning based VIO method that reduces computational redundancy by
opportunistically disabling the visual modality. Specifically, we train a
policy network that learns to deactivate the visual feature extractor on the
fly based on the current motion state and IMU readings. A Gumbel-Softmax trick
is adopted to train the policy network to make the decision process
differentiable for end-to-end system training. The learned strategy is
interpretable, and it shows scenario-dependent decision patterns for adaptive
complexity reduction. Experiment results show that our method achieves a
similar or even better performance than the full-modality baseline with up to
78.8% computational complexity reduction for KITTI dataset evaluation. Our code
will be shared in https://github.com/mingyuyng/Visual-Selective-VIO
- Abstract(参考訳): 近年,視覚慣性計測(VIO)の深層学習によるアプローチは,従来の幾何学的手法よりも優れた性能を示している。
しかし、既存のすべての手法は、潜在的な計算冗長性をもたらす全てのポーズ推定に視覚的および慣性の測定の両方を用いる。
視覚データ処理は慣性測定ユニット(IMU)よりもはるかに高価であるが、必ずしもポーズ推定精度の向上に寄与するとは限らない。
本稿では,視覚モダリティを日和見的に解消することで計算冗長性を低減できる適応型深層学習型vio法を提案する。
具体的には、現在の動作状態とIMU読解に基づいて、視覚的特徴抽出器をオンザフライで不活性化させる政策ネットワークを訓練する。
Gumbel-Softmax のトリックを用いてポリシーネットワークをトレーニングし、エンドツーエンドのシステムトレーニングで決定プロセスを差別化できるようにする。
学習戦略は解釈可能であり、適応的な複雑性低減のためのシナリオ依存の意思決定パターンを示す。
実験の結果,本手法はkittiデータセットの計算複雑性を最大78.8%削減できるフルモダリティベースラインと同等あるいはそれ以上の性能が得られることがわかった。
私たちのコードはhttps://github.com/mingyuyng/Visual-Selective-VIOで共有されます。
関連論文リスト
- Enhancing Digital Hologram Reconstruction Using Reverse-Attention Loss for Untrained Physics-Driven Deep Learning Models with Uncertain Distance [10.788482076164314]
未学習のディープラーニング手法におけるオートフォーカス問題に対処するための先駆的なアプローチを提案する。
提案手法は,競合する手法に対する大幅な再構成性能を示す。
例えば、PSNRでは1dB以下であり、SSIMでは0.002以下である。
論文 参考訳(メタデータ) (2024-01-11T01:30:46Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude
Estimation [0.0]
本稿では,慣性計測ユニット(IMU)のジャイロスコープを地中真実データを用いて識別する学習手法を提案する。
得られたアルゴリズムは、(目に見えない)テストシーケンスで最先端の処理を行う。
論文 参考訳(メタデータ) (2020-02-25T08:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。