論文の概要: t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2410.09747v1
- Date: Thu, 17 Oct 2024 11:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 05:12:47.656487
- Title: t-READi: Transformer-Powered Robust and Efficient Multimodal Inference for Autonomous Driving
- Title(参考訳): t-READi:変圧器駆動ロバストと自律運転のための効率的なマルチモーダル推論
- Authors: Pengfei Hu, Yuhang Qian, Tianyue Zheng, Ang Li, Zhe Chen, Yue Gao, Xiuzhen Cheng, Jun Luo,
- Abstract要約: t-READiは,マルチモーダルセンサデータの変動を考慮した適応型推論システムである。
平均推論精度を6%以上改善し、推論遅延を約15倍削減する。
- 参考スコア(独自算出の注目度): 34.4792159427294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the wide adoption of multimodal sensors (e.g., camera, lidar, radar) by autonomous vehicles (AVs), deep analytics to fuse their outputs for a robust perception become imperative. However, existing fusion methods often make two assumptions rarely holding in practice: i) similar data distributions for all inputs and ii) constant availability for all sensors. Because, for example, lidars have various resolutions and failures of radars may occur, such variability often results in significant performance degradation in fusion. To this end, we present tREADi, an adaptive inference system that accommodates the variability of multimodal sensory data and thus enables robust and efficient perception. t-READi identifies variation-sensitive yet structure-specific model parameters; it then adapts only these parameters while keeping the rest intact. t-READi also leverages a cross-modality contrastive learning method to compensate for the loss from missing modalities. Both functions are implemented to maintain compatibility with existing multimodal deep fusion methods. The extensive experiments evidently demonstrate that compared with the status quo approaches, t-READi not only improves the average inference accuracy by more than 6% but also reduces the inference latency by almost 15x with the cost of only 5% extra memory overhead in the worst case under realistic data and modal variations.
- Abstract(参考訳): 自動運転車(AV)によるマルチモーダルセンサー(カメラ、ライダー、レーダーなど)の広範な採用を考えると、堅牢な知覚のために出力を融合させる深層分析が必須となる。
しかし、既存の融合法では2つの仮定がほとんど成立しないことが多い。
一 すべての入力について類似したデータ分布
二 すべてのセンサの常に利用できること。
例えば、ライダーは様々な解像度を持ち、レーダーの故障が起こる可能性があるため、そのような変動は核融合の性能を著しく低下させる。
そこで本研究では,マルチモーダルセンサデータの変動を考慮した適応型推論システム tREADi を提案する。
t-READiは変化に敏感だが構造固有のモデルパラメータを識別し、残りをそのまま保ちながらこれらのパラメータのみを適応する。
t-READiはまた、欠落したモダリティの損失を補うために、クロスモダリティのコントラスト学習手法も活用している。
どちらの関数も既存のマルチモーダル深層融合法との互換性を維持するために実装されている。
大規模な実験は、現状クオアプローチと比較して、t-READiは平均推論精度を6%以上改善するだけでなく、実際のデータと修正のバリエーションの下では最悪の場合において、5%余分なメモリオーバーヘッドのコストで、推論遅延を約15倍削減することを示した。
関連論文リスト
- Condition-Aware Multimodal Fusion for Robust Semantic Perception of Driving Scenes [56.52618054240197]
本研究では,運転シーンのロバストな意味認識のための条件対応型マルチモーダル融合手法を提案する。
CAFuserは、RGBカメラ入力を用いて環境条件を分類し、複数のセンサの融合を誘導するコンディショントークンを生成する。
MUSESデータセットでは,マルチモーダルパノプティクスセグメンテーションの59.7 PQ,セマンティックセグメンテーションの78.2 mIoU,公開ベンチマークの1位にランクインした。
論文 参考訳(メタデータ) (2024-10-14T17:56:20Z) - RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Robust Multimodal 3D Object Detection via Modality-Agnostic Decoding and Proximity-based Modality Ensemble [15.173314907900842]
既存の3Dオブジェクト検出方法は、LiDARセンサーに大きく依存している。
我々は,LiDAR過信頼問題に対処するためにMEFormerを提案する。
我々のMEFormerは73.9% NDSと71.5% mAPの最先端性能を実現している。
論文 参考訳(メタデータ) (2024-07-27T03:21:44Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - Uncertainty-Encoded Multi-Modal Fusion for Robust Object Detection in
Autonomous Driving [8.991012799672713]
本稿では,単一モードの不確かさをLiDAR-camera融合に明示的に組み込む不確実性符号化混合(UMoE)を提案する。
UMoEの最大性能は10.67%、3.17%、そして5.40%である。
論文 参考訳(メタデータ) (2023-07-30T04:00:41Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - AutoFed: Heterogeneity-Aware Federated Multimodal Learning for Robust
Autonomous Driving [15.486799633600423]
AutoFedは、自動運転車のマルチモーダルセンサーデータをフル活用するためのフレームワークである。
本研究では, 未知の物体を背景として誤って扱うことを避けるために, 擬似ラベルを用いた新しいモデルを提案する。
また、欠落したデータモダリティを補うために、オートエンコーダに基づくデータ計算手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T01:31:53Z) - Detecting Concept Drift in the Presence of Sparsity -- A Case Study of
Automated Change Risk Assessment System [0.8021979227281782]
文学におけるテクスティットパリシティ(textitsparsity)と呼ばれる欠落値は、多くの実世界のデータセットの共通の特徴である。
本研究では,異なる種類の疎性に対する様々な統計およびMLに基づくデータ計算手法の欠落した値のパターンについて検討する。
次に、異なるメトリクスに基づいて、欠落した値を持つデータセットを与えられた最良のコンセプトドリフト検出器を選択する。
論文 参考訳(メタデータ) (2022-07-27T04:27:49Z) - Inertial Hallucinations -- When Wearable Inertial Devices Start Seeing
Things [82.15959827765325]
環境支援型生活(AAL)のためのマルチモーダルセンサフュージョンの新しいアプローチを提案する。
我々は、標準マルチモーダルアプローチの2つの大きな欠点、限られた範囲のカバレッジ、信頼性の低下に対処する。
我々の新しいフレームワークは、三重項学習によるモダリティ幻覚の概念を融合させ、異なるモダリティを持つモデルを訓練し、推論時に欠落したセンサーに対処する。
論文 参考訳(メタデータ) (2022-07-14T10:04:18Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Multimodal Object Detection via Bayesian Fusion [59.31437166291557]
我々は、RGBとサーマルカメラでマルチモーダルオブジェクト検出を研究します。後者は照明不良下ではるかに強力なオブジェクトシグネチャを提供することができます。
我々の重要な貢献は、異なるモードのボックス検出を融合する非学習遅延融合法である。
このアプローチは、整列(KAIST)と非整列(FLIR)のマルチモーダルセンサーデータを含むベンチマークに適用されます。
論文 参考訳(メタデータ) (2021-04-07T04:03:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。