論文の概要: A novel multimodal fusion network based on a joint coding model for lane
line segmentation
- arxiv url: http://arxiv.org/abs/2103.11114v1
- Date: Sat, 20 Mar 2021 06:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:34:53.381726
- Title: A novel multimodal fusion network based on a joint coding model for lane
line segmentation
- Title(参考訳): レーン線分割のためのジョイント符号化モデルに基づく新しいマルチモーダル融合ネットワーク
- Authors: Zhenhong Zou, Xinyu Zhang, Huaping Liu, Zhiwei Li, Amir Hussain and
Jun Li
- Abstract要約: 本稿では,情報理論の観点から新しいマルチモーダル融合アーキテクチャを提案する。
LiDARカメラ融合ネットワークを用いた実用性を発揮します。
我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。
- 参考スコア(独自算出の注目度): 22.89466867866239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There has recently been growing interest in utilizing multimodal sensors to
achieve robust lane line segmentation. In this paper, we introduce a novel
multimodal fusion architecture from an information theory perspective, and
demonstrate its practical utility using Light Detection and Ranging (LiDAR)
camera fusion networks. In particular, we develop, for the first time, a
multimodal fusion network as a joint coding model, where each single node,
layer, and pipeline is represented as a channel. The forward propagation is
thus equal to the information transmission in the channels. Then, we can
qualitatively and quantitatively analyze the effect of different fusion
approaches. We argue the optimal fusion architecture is related to the
essential capacity and its allocation based on the source and channel. To test
this multimodal fusion hypothesis, we progressively determine a series of
multimodal models based on the proposed fusion methods and evaluate them on the
KITTI and the A2D2 datasets. Our optimal fusion network achieves 85%+ lane line
accuracy and 98.7%+ overall. The performance gap among the models will inform
continuing future research into development of optimal fusion algorithms for
the deep multimodal learning community.
- Abstract(参考訳): 近年,頑丈な車線分割を実現するためにマルチモーダルセンサの利用への関心が高まっている。
本稿では,情報理論の観点から新しいマルチモーダルフュージョンアーキテクチャを導入し,その実用性をLight Detection and Ranging (LiDAR)カメラフュージョンネットワークを用いて実証する。
特に,各ノード,層,パイプラインがチャネルとして表現されるジョイントコーディングモデルとして,初めてマルチモーダル融合ネットワークを開発した。
したがって、前方伝播はチャネル内の情報伝達と等しい。
そして、異なる融合アプローチの効果を質的かつ定量的に分析することができる。
我々は、最適核融合アーキテクチャは、ソースとチャネルに基づいて、必須容量とその割り当てに関係していると論じる。
このマルチモーダル融合仮説をテストするために,提案手法に基づく一連のマルチモーダルモデルを段階的に決定し,KITTIおよびA2D2データセット上で評価する。
我々の最適核融合ネットワークは85%以上の車線精度と98.7%以上の全体を達成する。
モデル間のパフォーマンスギャップは、深層マルチモーダル学習コミュニティのための最適な融合アルゴリズムの開発に関する今後の研究に役立ちます。
関連論文リスト
- MMLF: Multi-modal Multi-class Late Fusion for Object Detection with Uncertainty Estimation [13.624431305114564]
本稿では,マルチクラス検出が可能なレイトフュージョンのための先駆的マルチモーダル・マルチクラスレイトフュージョン法を提案する。
KITTI検証と公式テストデータセットで実施された実験は、大幅なパフォーマンス改善を示している。
我々のアプローチでは、不確実性分析を分類融合プロセスに組み込んで、モデルをより透明で信頼性の高いものにします。
論文 参考訳(メタデータ) (2024-10-11T11:58:35Z) - FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - Multimodal Multi-loss Fusion Network for Sentiment Analysis [3.8611070161950902]
本稿では,複数のモードにまたがる特徴エンコーダの最適選択と融合について検討し,感情検出を改善する。
我々は、異なる融合法を比較し、マルチモダリティ融合ネットワークにおけるマルチロストレーニングの影響について検討する。
コンテキストの統合はモデルの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-01T03:54:27Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - IMF: Interactive Multimodal Fusion Model for Link Prediction [13.766345726697404]
異なるモダリティからの知識を統合するために,インタラクティブ・マルチモーダル・フュージョン(IMF)モデルを導入する。
提案手法は,実世界の複数のデータセットに対する経験的評価によって有効であることが実証された。
論文 参考訳(メタデータ) (2023-03-20T01:20:02Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions [14.700807572189412]
本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
論文 参考訳(メタデータ) (2021-07-24T11:33:37Z) - Deep Multimodal Fusion by Channel Exchanging [87.40768169300898]
本稿では,異なるモードのサブネットワーク間で動的にチャネルを交換するパラメータフリーマルチモーダル融合フレームワークを提案する。
このような交換プロセスの有効性は、畳み込みフィルタを共有してもBN層をモダリティで分離しておくことで保証される。
論文 参考訳(メタデータ) (2020-11-10T09:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。