論文の概要: Context-Aware Interaction Network for RGB-T Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2401.01624v1
- Date: Wed, 3 Jan 2024 08:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 14:31:51.419194
- Title: Context-Aware Interaction Network for RGB-T Semantic Segmentation
- Title(参考訳): RGB-Tセマンティックセグメンテーションのためのコンテキスト認識インタラクションネットワーク
- Authors: Ying Lv, Zhi Liu, Gongyang Li
- Abstract要約: RGB-Tセマンティックセグメンテーションは自律走行シーン理解の鍵となる手法である。
補助的なタスクとグローバルなコンテキストを活用するためのコンテキスト認識インタラクションネットワーク(CAINet)を提案する。
提案したCAINetは、ベンチマークデータセット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 12.91377211747192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-T semantic segmentation is a key technique for autonomous driving scenes
understanding. For the existing RGB-T semantic segmentation methods, however,
the effective exploration of the complementary relationship between different
modalities is not implemented in the information interaction between multiple
levels. To address such an issue, the Context-Aware Interaction Network
(CAINet) is proposed for RGB-T semantic segmentation, which constructs
interaction space to exploit auxiliary tasks and global context for explicitly
guided learning. Specifically, we propose a Context-Aware Complementary
Reasoning (CACR) module aimed at establishing the complementary relationship
between multimodal features with the long-term context in both spatial and
channel dimensions. Further, considering the importance of global contextual
and detailed information, we propose the Global Context Modeling (GCM) module
and Detail Aggregation (DA) module, and we introduce specific auxiliary
supervision to explicitly guide the context interaction and refine the
segmentation map. Extensive experiments on two benchmark datasets of MFNet and
PST900 demonstrate that the proposed CAINet achieves state-of-the-art
performance. The code is available at https://github.com/YingLv1106/CAINet.
- Abstract(参考訳): RGB-Tセマンティックセグメンテーションは自律走行シーン理解の鍵となる手法である。
しかし,既存のRGB-Tセマンティックセマンティックセグメンテーションでは,複数のレベル間の情報相互作用において,異なるモダリティ間の相補関係を効果的に探索することができない。
このような問題に対処するために、RGB-TセマンティックセグメンテーションのためにContext-Aware Interaction Network (CAINet) が提案されている。
具体的には,マルチモーダル特徴と空間次元およびチャネル次元の長期的文脈との相補関係を確立することを目的とした,コンテキスト対応補完推論(CACR)モジュールを提案する。
さらに、グローバルコンテキストと詳細な情報の重要性を考慮し、グローバルコンテキストモデリング(gcm)モジュールとディテールアグリゲーション(da)モジュールを提案し、コンテキストインタラクションを明示的にガイドし、セグメンテーションマップを洗練するために、特別な補助監督を導入する。
MFNetとPST900の2つのベンチマークデータセットに対する大規模な実験は、提案されたCAINetが最先端のパフォーマンスを達成することを示した。
コードはhttps://github.com/YingLv1106/CAINetで入手できる。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文 参考訳(メタデータ) (2021-04-20T07:33:11Z) - DCANet: Dense Context-Aware Network for Semantic Segmentation [4.960604671885823]
ローカル詳細情報をグローバルな依存関係と適応的に統合する新しいモジュールであるContext-Aware (DCA) モジュールを提案する。
コンテキスト関係によって駆動されるDCAモジュールは、コンテキスト情報の集約により、より強力な機能を生成することができる。
3つの挑戦的なデータセットに関する広範な実験により、私たちのアプローチの有望なパフォーマンスを実証しています。
論文 参考訳(メタデータ) (2021-04-06T14:12:22Z) - Global-Local Propagation Network for RGB-D Semantic Segmentation [12.710923449138434]
この問題を解決するため,グローバルローカル伝搬ネットワーク(GLPNet)を提案する。
GLPNetは、2つの挑戦的な屋内シーンセグメンテーションデータセットで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-01-26T14:26:07Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。