論文の概要: Learning Multiplicative Interactions with Bayesian Neural Networks for
Visual-Inertial Odometry
- arxiv url: http://arxiv.org/abs/2007.07630v1
- Date: Wed, 15 Jul 2020 11:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:38:35.750290
- Title: Learning Multiplicative Interactions with Bayesian Neural Networks for
Visual-Inertial Odometry
- Title(参考訳): 視覚慣性オドメトリーのためのベイズニューラルネットワークとの乗法相互作用の学習
- Authors: Kashmira Shinde, Jongseok Lee, Matthias Humt, Aydin Sezgin, Rudolph
Triebel
- Abstract要約: 本稿では,視覚慣性オドメトリー(VIO)のためのエンドツーエンドマルチモーダル学習手法を提案する。
センサ劣化シナリオに照らして、センサの相補性を利用するように設計されている。
- 参考スコア(独自算出の注目度): 44.209301916028124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end multi-modal learning approach for monocular
Visual-Inertial Odometry (VIO), which is specifically designed to exploit
sensor complementarity in the light of sensor degradation scenarios. The
proposed network makes use of a multi-head self-attention mechanism that learns
multiplicative interactions between multiple streams of information. Another
design feature of our approach is the incorporation of the model uncertainty
using scalable Laplace Approximation. We evaluate the performance of the
proposed approach by comparing it against the end-to-end state-of-the-art
methods on the KITTI dataset and show that it achieves superior performance.
Importantly, our work thereby provides an empirical evidence that learning
multiplicative interactions can result in a powerful inductive bias for
increased robustness to sensor failures.
- Abstract(参考訳): 本稿では,センサ劣化シナリオの光におけるセンサの相補性を活用することを目的とした,単眼視覚慣性オドメトリー(VIO)のエンドツーエンドマルチモーダル学習手法を提案する。
提案するネットワークは,複数の情報ストリーム間の乗法的相互作用を学習するマルチヘッド自己認識機構を利用する。
提案手法のもうひとつの設計特徴は,スケーラブルなラプラス近似を用いたモデル不確実性の導入である。
提案手法の性能を,KITTIデータセットのエンドツーエンドの最先端手法と比較することにより評価し,優れた性能が得られることを示す。
重要なことは、我々の研究は、乗法的相互作用の学習が、センサーの故障に対する堅牢性を高める強力な誘導バイアスをもたらすという実証的な証拠を提供する。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Multimodal Information Bottleneck for Deep Reinforcement Learning with Multiple Sensors [10.454194186065195]
強化学習はロボット制御タスクにおいて有望な成果を上げてきたが、情報の有効活用に苦慮している。
最近の研究は、複数の感覚入力から関節表現を抽出するために、再構成や相互情報に基づく補助的損失を構築している。
生のマルチモーダル観測について,学習した共同表現で情報を圧縮することが有用である。
論文 参考訳(メタデータ) (2024-10-23T04:32:37Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - Understanding Data Augmentation from a Robustness Perspective [10.063624819905508]
データ拡張は、モデルの堅牢性を増幅するための重要なテクニックとして際立っている。
この写本は、この現象を理解するための理論的および実証的なアプローチを採っている。
我々の経験的評価は、エンブレマ的なデータ拡張戦略の複雑なメカニズムを解明するものである。
これらの洞察は、視覚認識タスクにおけるモデルの安全性と堅牢性を再評価する新しいレンズを提供する。
論文 参考訳(メタデータ) (2023-09-07T10:54:56Z) - Regularization Through Simultaneous Learning: A Case Study on Plant
Classification [0.0]
本稿では,トランスファーラーニングとマルチタスクラーニングの原則に基づく正規化アプローチである同時学習を紹介する。
我々は、ターゲットデータセットであるUFOP-HVDの補助データセットを活用し、カスタマイズされた損失関数でガイドされた同時分類を容易にする。
興味深いことに,本手法は正規化のないモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-22T19:44:57Z) - Task-Free Continual Learning via Online Discrepancy Distance Learning [11.540150938141034]
本稿では,来訪したサンプルとモデルトレーニングに利用可能な情報全体との差分距離に基づく一般化境界を提供する,新しい理論解析フレームワークを開発する。
この理論モデルに着想を得て,混合モデルに対する動的成分展開機構,すなわちオンライン離散距離学習(ODDL)によって実現された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-12T20:44:09Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。