論文の概要: BIMII-Net: Brain-Inspired Multi-Iterative Interactive Network for RGB-T Road Scene Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2503.19303v1
- Date: Tue, 25 Mar 2025 03:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:38.267292
- Title: BIMII-Net: Brain-Inspired Multi-Iterative Interactive Network for RGB-T Road Scene Semantic Segmentation
- Title(参考訳): BIMII-Net: RGB-Tロードシーンセマンティックセマンティックセマンティックセグメンテーションのための脳誘発多言語対話ネットワーク
- Authors: Hanshuo Qiu, Jie Jiang, Ruoli Yang, Lixin Zhan, Jizhao Liu,
- Abstract要約: 我々は、BIMII-Net(Brain-Inspired Multi-Iteration Interaction Network)と呼ばれる新しいRGB-Tロードシーンセマンティックセマンティックネットワークを提案する。
まず、自律運転のような道路シナリオにおける正確なテクスチャと局所情報抽出の要件を満たすため、脳にインスパイアされたモデルに基づく深部連続結合ニューラルネットワーク(DCCNN)アーキテクチャを提案する。
第2に,BIMII-Netの機能融合段階において,多モード情報間の相互作用と表現能力を高めるために,クロス明示的な注意強調融合モジュール (CEAEF-Module) を設計した。
最後に,相補的対話型多層復号器を構築した。
- 参考スコア(独自算出の注目度): 6.223341988991549
- License:
- Abstract: RGB-T road scene semantic segmentation enhances visual scene understanding in complex environments characterized by inadequate illumination or occlusion by fusing information from RGB and thermal images. Nevertheless, existing RGB-T semantic segmentation models typically depend on simple addition or concatenation strategies or ignore the differences between information at different levels. To address these issues, we proposed a novel RGB-T road scene semantic segmentation network called Brain-Inspired Multi-Iteration Interaction Network (BIMII-Net). First, to meet the requirements of accurate texture and local information extraction in road scenarios like autonomous driving, we proposed a deep continuous-coupled neural network (DCCNN) architecture based on a brain-inspired model. Second, to enhance the interaction and expression capabilities among multi-modal information, we designed a cross explicit attention-enhanced fusion module (CEAEF-Module) in the feature fusion stage of BIMII-Net to effectively integrate features at different levels. Finally, we constructed a complementary interactive multi-layer decoder structure, incorporating the shallow-level feature iteration module (SFI-Module), the deep-level feature iteration module (DFI-Module), and the multi-feature enhancement module (MFE-Module) to collaboratively extract texture details and global skeleton information, with multi-module joint supervision further optimizing the segmentation results. Experimental results demonstrate that BIMII-Net achieves state-of-the-art (SOTA) performance in the brain-inspired computing domain and outperforms most existing RGB-T semantic segmentation methods. It also exhibits strong generalization capabilities on multiple RGB-T datasets, proving the effectiveness of brain-inspired computer models in multi-modal image segmentation tasks.
- Abstract(参考訳): RGB-T道路シーンセマンティックセグメンテーションは、RGBや熱画像からの情報を融合することにより、照明や閉塞が不十分な複雑な環境での視覚的シーン理解を促進する。
それでも、既存のRGB-Tセマンティックセグメンテーションモデルは、通常、単純な追加または連結戦略に依存し、異なるレベルの情報の違いを無視する。
これらの問題に対処するため、我々はBrain-Inspired Multi-Iteration Interaction Network (BIMII-Net)と呼ばれる新しいRGB-Tロードシーンセマンティックセマンティックネットワークを提案した。
まず、自律運転のような道路シナリオにおける正確なテクスチャと局所情報抽出の要件を満たすため、脳にインスパイアされたモデルに基づく深部連続結合ニューラルネットワーク(DCCNN)アーキテクチャを提案する。
第2に,マルチモーダル情報間の相互作用と表現能力を高めるため,BIMII-Netの機能融合段階において,多段階の機能を効果的に統合するクロス明示的な注意強調融合モジュール (CEAEF-Module) を設計した。
最後に,浅層機能反復モジュール (SFI-Module) と深層機能反復モジュール (DFI-Module) と多層機能拡張モジュール (MFE-Module) を併用して,テクスチャの詳細と大域的骨格情報を協調的に抽出し,さらにセグメンテーション結果の最適化を行う,相補的対話型多層デコーダ構造を構築した。
実験により、BIMII-Netは、脳にインスパイアされたコンピューティング領域において、最先端(SOTA)性能を実現し、既存のRGB-Tセマンティックセマンティックセグメンテーション手法よりも優れていることが示された。
また、複数のRGB-Tデータセットに対して強力な一般化能力を示し、マルチモーダル画像分割タスクにおいて脳にインスパイアされたコンピュータモデルの有効性を証明している。
関連論文リスト
- FANet: Feature Amplification Network for Semantic Segmentation in Cluttered Background [9.970265640589966]
既存のディープラーニングアプローチでは、複雑なシナリオに存在するセマンティックセグメンテーションにおいて重要なセマンティックな方法が残されている。
マルチステージ機能拡張モジュールを用いて意味情報を組み込んだバックボーンネットワークとして機能増幅ネットワーク(FANet)を提案する。
実験の結果,既存の手法と比較して最先端の性能が示された。
論文 参考訳(メタデータ) (2024-07-12T15:57:52Z) - Context-Aware Interaction Network for RGB-T Semantic Segmentation [12.91377211747192]
RGB-Tセマンティックセグメンテーションは自律走行シーン理解の鍵となる手法である。
補助的なタスクとグローバルなコンテキストを活用するためのコンテキスト認識インタラクションネットワーク(CAINet)を提案する。
提案したCAINetは、ベンチマークデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-01-03T08:49:29Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Global-Local Propagation Network for RGB-D Semantic Segmentation [12.710923449138434]
この問題を解決するため,グローバルローカル伝搬ネットワーク(GLPNet)を提案する。
GLPNetは、2つの挑戦的な屋内シーンセグメンテーションデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-26T14:26:07Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。