論文の概要: Learning Multiplicative Interactions with Bayesian Neural Networks for
Visual-Inertial Odometry
- arxiv url: http://arxiv.org/abs/2007.07630v1
- Date: Wed, 15 Jul 2020 11:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 05:38:35.750290
- Title: Learning Multiplicative Interactions with Bayesian Neural Networks for
Visual-Inertial Odometry
- Title(参考訳): 視覚慣性オドメトリーのためのベイズニューラルネットワークとの乗法相互作用の学習
- Authors: Kashmira Shinde, Jongseok Lee, Matthias Humt, Aydin Sezgin, Rudolph
Triebel
- Abstract要約: 本稿では,視覚慣性オドメトリー(VIO)のためのエンドツーエンドマルチモーダル学習手法を提案する。
センサ劣化シナリオに照らして、センサの相補性を利用するように設計されている。
- 参考スコア(独自算出の注目度): 44.209301916028124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end multi-modal learning approach for monocular
Visual-Inertial Odometry (VIO), which is specifically designed to exploit
sensor complementarity in the light of sensor degradation scenarios. The
proposed network makes use of a multi-head self-attention mechanism that learns
multiplicative interactions between multiple streams of information. Another
design feature of our approach is the incorporation of the model uncertainty
using scalable Laplace Approximation. We evaluate the performance of the
proposed approach by comparing it against the end-to-end state-of-the-art
methods on the KITTI dataset and show that it achieves superior performance.
Importantly, our work thereby provides an empirical evidence that learning
multiplicative interactions can result in a powerful inductive bias for
increased robustness to sensor failures.
- Abstract(参考訳): 本稿では,センサ劣化シナリオの光におけるセンサの相補性を活用することを目的とした,単眼視覚慣性オドメトリー(VIO)のエンドツーエンドマルチモーダル学習手法を提案する。
提案するネットワークは,複数の情報ストリーム間の乗法的相互作用を学習するマルチヘッド自己認識機構を利用する。
提案手法のもうひとつの設計特徴は,スケーラブルなラプラス近似を用いたモデル不確実性の導入である。
提案手法の性能を,KITTIデータセットのエンドツーエンドの最先端手法と比較することにより評価し,優れた性能が得られることを示す。
重要なことは、我々の研究は、乗法的相互作用の学習が、センサーの故障に対する堅牢性を高める強力な誘導バイアスをもたらすという実証的な証拠を提供する。
関連論文リスト
- The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Multimodal Visual-Tactile Representation Learning through
Self-Supervised Contrastive Pre-Training [0.850206009406913]
MViTacは、コントラスト学習を利用して視覚と触覚を自己指導的に統合する新しい手法である。
両方の感覚入力を利用することで、MViTacは学習表現のモダリティ内およびモダリティ間損失を利用して、材料特性の分類を強化し、より適切な把握予測を行う。
論文 参考訳(メタデータ) (2024-01-22T15:11:57Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Understanding Data Augmentation from a Robustness Perspective [10.063624819905508]
データ拡張は、モデルの堅牢性を増幅するための重要なテクニックとして際立っている。
この写本は、この現象を理解するための理論的および実証的なアプローチを採っている。
我々の経験的評価は、エンブレマ的なデータ拡張戦略の複雑なメカニズムを解明するものである。
これらの洞察は、視覚認識タスクにおけるモデルの安全性と堅牢性を再評価する新しいレンズを提供する。
論文 参考訳(メタデータ) (2023-09-07T10:54:56Z) - Mutual Information Regularization for Weakly-supervised RGB-D Salient
Object Detection [33.210575826086654]
弱教師付きRGB-Dサルエント物体検出モデルを提案する。
モーダル相互情報正規化による効果的なマルチモーダル表現学習に着目した。
論文 参考訳(メタデータ) (2023-06-06T12:36:57Z) - Regularization Through Simultaneous Learning: A Case Study on Plant
Classification [0.0]
本稿では,トランスファーラーニングとマルチタスクラーニングの原則に基づく正規化アプローチである同時学習を紹介する。
我々は、ターゲットデータセットであるUFOP-HVDの補助データセットを活用し、カスタマイズされた損失関数でガイドされた同時分類を容易にする。
興味深いことに,本手法は正規化のないモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-22T19:44:57Z) - Task-Free Continual Learning via Online Discrepancy Distance Learning [11.540150938141034]
本稿では,来訪したサンプルとモデルトレーニングに利用可能な情報全体との差分距離に基づく一般化境界を提供する,新しい理論解析フレームワークを開発する。
この理論モデルに着想を得て,混合モデルに対する動的成分展開機構,すなわちオンライン離散距離学習(ODDL)によって実現された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-12T20:44:09Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。