論文の概要: TransFusionOdom: Interpretable Transformer-based LiDAR-Inertial Fusion
Odometry Estimation
- arxiv url: http://arxiv.org/abs/2304.07728v2
- Date: Wed, 26 Apr 2023 00:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 17:12:29.579817
- Title: TransFusionOdom: Interpretable Transformer-based LiDAR-Inertial Fusion
Odometry Estimation
- Title(参考訳): transfusionodom: 解釈可能なトランスフォーマーベースのlidar-inertial fusion odometry 推定
- Authors: Leyuan Sun, Guanqun Ding, Yue Qiu, Yusuke Yoshiyasu and Fumio Kanehiro
- Abstract要約: 生体計測のためのエンド・ツー・エンド型のトランスフォーマーベースLiDAR-Inertial fusion framework(TransFusionOdom)を提案する。
オーバーフィッティング問題に対処するために、同質および異質なモダリティに対する異なる融合アプローチを示す。
総括的アブレーション研究は、提案した核融合戦略の性能を検証するために、異なるマルチモーダル核融合戦略を評価する。
- 参考スコア(独自算出の注目度): 7.778461949427663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal fusion of sensors is a commonly used approach to enhance the
performance of odometry estimation, which is also a fundamental module for
mobile robots. However, the question of \textit{how to perform fusion among
different modalities in a supervised sensor fusion odometry estimation task?}
is still one of challenging issues remains. Some simple operations, such as
element-wise summation and concatenation, are not capable of assigning adaptive
attentional weights to incorporate different modalities efficiently, which make
it difficult to achieve competitive odometry results. Recently, the Transformer
architecture has shown potential for multi-modal fusion tasks, particularly in
the domains of vision with language. In this work, we propose an end-to-end
supervised Transformer-based LiDAR-Inertial fusion framework (namely
TransFusionOdom) for odometry estimation. The multi-attention fusion module
demonstrates different fusion approaches for homogeneous and heterogeneous
modalities to address the overfitting problem that can arise from blindly
increasing the complexity of the model. Additionally, to interpret the learning
process of the Transformer-based multi-modal interactions, a general
visualization approach is introduced to illustrate the interactions between
modalities. Moreover, exhaustive ablation studies evaluate different
multi-modal fusion strategies to verify the performance of the proposed fusion
strategy. A synthetic multi-modal dataset is made public to validate the
generalization ability of the proposed fusion strategy, which also works for
other combinations of different modalities. The quantitative and qualitative
odometry evaluations on the KITTI dataset verify the proposed TransFusionOdom
could achieve superior performance compared with other related works.
- Abstract(参考訳): センサのマルチモーダル融合は,移動ロボットの基本モジュールであるオドメトリ推定の性能を高めるために一般的に用いられている手法である。
しかし, 教師付きセンサ融合オドメトリ推定タスクにおいて, 異なるモード間の融合をどのように行うか?
まだ課題の1つが残っている。
要素和や連結といったいくつかの単純な演算は、異なるモーダルを効率的に組み込むために適応的な注意重みを割り当てることができないため、競合オドメトリーの結果を得るのが困難である。
近年、Transformerアーキテクチャは、特に言語とのビジョン領域において、マルチモーダル融合タスクの可能性を示している。
本研究では,オドメトリ推定のためのエンドツーエンドの教師付きトランスフォーマトベースlidar-inertial fusion framework(transfusionodom)を提案する。
マルチアテンション融合モジュールは、モデルの複雑さを盲目的に増やすことで生じる過剰フィッティング問題に対処するために、均質および不均質なモダリティに対する異なる融合アプローチを示す。
さらに,変圧器を用いたマルチモーダルインタラクションの学習過程を解釈するために,モダリティ間の相互作用を説明するために,汎用可視化手法を導入する。
さらに, 各種マルチモーダル核融合戦略の評価を行い, 提案する核融合戦略の性能を検証した。
提案した融合戦略の一般化能力を検証するために, 合成マルチモーダルデータセットが公開されている。
提案したTransFusionOdomをKITTIデータセットで定量および定性評価することにより,他の関連する研究と比較して優れた性能が得られた。
関連論文リスト
- Generalized Multimodal Fusion via Poisson-Nernst-Planck Equation [5.022049774600693]
本稿では,Poisson-Nernst-Planck(PNP)方程式を用いた一般化多モード融合法(GMF)を提案する。
提案したGMFは,より少ないパラメータと計算資源を生かしながら,最先端(SOTA)の精度に近い結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-20T19:15:28Z) - SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Coupled generator decomposition for fusion of electro- and magnetoencephalography data [1.7102695043811291]
データ融合モデリングは、ソース固有の変数を考慮に入れながら、多様なデータソースにまたがる共通の特徴を識別することができる。
本稿では、テキスト結合型ジェネレータ分解の概念を導入し、データ融合のためのスパース主成分分析をいかに一般化するかを示す。
論文 参考訳(メタデータ) (2024-03-02T12:09:16Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - MEAformer: Multi-modal Entity Alignment Transformer for Meta Modality
Hybrid [40.745848169903105]
マルチモーダル・エンティティ・アライメント(MMEA)は、異なる知識グラフにまたがる同一のエンティティを発見することを目的としている。
MMEAアルゴリズムはマルチモーダル実体表現のためのKGレベルのモダリティ融合戦略に依存している。
本稿ではメタモダリティハイブリッドのためのマルチモーダルエンティティアライメントトランスであるMEAformerを紹介する。
論文 参考訳(メタデータ) (2022-12-29T20:49:58Z) - Relational Reasoning via Set Transformers: Provable Efficiency and
Applications to MARL [154.13105285663656]
置換不変エージェントフレームワークを用いたMARL(Multi-A gent R einforcement Learning)は,実世界のアプリケーションにおいて大きな実証的成功を収めた。
残念なことに、このMARL問題の理論的理解は、多くのエージェントの呪いと、既存の著作における関係推論の限定的な探索によって欠落している。
モデルフリーアルゴリズムとモデルベースアルゴリズムの最適度差は各エージェント数に独立して対数的であり、多くのエージェントの呪いを和らげる。
論文 参考訳(メタデータ) (2022-09-20T16:42:59Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。