論文の概要: S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching
for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2401.11414v1
- Date: Sun, 21 Jan 2024 06:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 16:33:54.632931
- Title: S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching
for Autonomous Driving
- Title(参考訳): S$3$M-Net:自律運転のためのセマンティックセグメンテーションとステレオマッチングの統合学習
- Authors: Zhiyuan Wu, Yi Feng, Chuang-Wei Liu, Fisher Yu, Qijun Chen, Rui Fan
- Abstract要約: S$3$M-Netはセマンティックセグメンテーションとステレオマッチングを同時に行うために開発された新しい共同学習フレームワークである。
S$3$M-Netは、両方のタスク間でRGBイメージから抽出された特徴を共有し、全体的なシーン理解能力が改善された。
- 参考スコア(独自算出の注目度): 40.305452898732774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation and stereo matching are two essential components of 3D
environmental perception systems for autonomous driving. Nevertheless,
conventional approaches often address these two problems independently,
employing separate models for each task. This approach poses practical
limitations in real-world scenarios, particularly when computational resources
are scarce or real-time performance is imperative. Hence, in this article, we
introduce S$^3$M-Net, a novel joint learning framework developed to perform
semantic segmentation and stereo matching simultaneously. Specifically,
S$^3$M-Net shares the features extracted from RGB images between both tasks,
resulting in an improved overall scene understanding capability. This feature
sharing process is realized using a feature fusion adaption (FFA) module, which
effectively transforms the shared features into semantic space and subsequently
fuses them with the encoded disparity features. The entire joint learning
framework is trained by minimizing a novel semantic consistency-guided (SCG)
loss, which places emphasis on the structural consistency in both tasks.
Extensive experimental results conducted on the vKITTI2 and KITTI datasets
demonstrate the effectiveness of our proposed joint learning framework and its
superior performance compared to other state-of-the-art single-task networks.
Our project webpage is accessible at mias.group/S3M-Net.
- Abstract(参考訳): セマンティクスセグメンテーションとステレオマッチングは、自律運転のための3次元環境知覚システムの2つの必須要素である。
しかしながら、従来の手法ではこれらの2つの問題を個別に扱い、各タスクに別々のモデルを用いることが多い。
このアプローチは、特に計算資源が不足したり、リアルタイム性能が必須である場合に、実世界のシナリオにおいて実用的な制限をもたらす。
そこで本稿では,意味セグメンテーションとステレオマッチングを同時に行うための新しい共同学習フレームワークであるs$^3$m-netを紹介する。
具体的には、S$3$M-Netは、両方のタスク間でRGB画像から抽出された特徴を共有し、全体的なシーン理解能力が改善された。
この特徴共有プロセスは、機能融合適応(ffa)モジュールを使用して実現され、共有された特徴を効果的に意味空間に変換し、符号化された異質な特徴と融合する。
統合学習フレームワーク全体は、両タスクの構造的一貫性を重視した、新しいセマンティック一貫性ガイド(scg)損失を最小化することでトレーニングされる。
vKITTI2 と KITTI のデータセットを用いて行った大規模な実験結果から,提案した統合学習フレームワークの有効性と,他の最先端シングルタスクネットワークと比較して優れた性能を示した。
プロジェクトのWebページは mias.group/S3M-Net でアクセスできます。
関連論文リスト
- TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework [10.005854418001219]
TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。
本研究は,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。
論文 参考訳(メタデータ) (2024-07-25T13:31:55Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - DenseMTL: Cross-task Attention Mechanism for Dense Multi-task Learning [18.745373058797714]
本稿では,相互に相互にタスクを交換するマルチタスク学習アーキテクチャを提案する。
我々は3つのマルチタスク・セットアップにまたがって広範な実験を行い、合成および実世界のベンチマークにおいて競合するベースラインと比較して、我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2022-06-17T17:59:45Z) - Global-and-Local Collaborative Learning for Co-Salient Object Detection [162.62642867056385]
Co-Salient Object Detection (CoSOD)の目標は、2つ以上の関連する画像を含むクエリグループに一般的に現れる有能なオブジェクトを見つけることである。
本稿では,グローバル対応モデリング(GCM)とローカル対応モデリング(LCM)を含む,グローバル・ローカル協調学習アーキテクチャを提案する。
提案したGLNetは3つの一般的なCoSODベンチマークデータセットに基づいて評価され、我々のモデルが小さなデータセット(約3k画像)でトレーニングされた場合、一部の大規模データセット(約8k-200k画像)でトレーニングされた11の最先端の競合製品(約8k-200k画像)を上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-19T14:32:41Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - LiDAR-based Panoptic Segmentation via Dynamic Shifting Network [56.71765153629892]
LiDARベースのパノプティカルセグメンテーションは、オブジェクトとシーンを統一的に解析することを目的としている。
本稿では,ポイントクラウド領域における効果的な単視分割フレームワークとして機能する動的シフトネットワーク(DS-Net)を提案する。
提案するDS-Netは,現在の最先端手法よりも優れた精度を実現する。
論文 参考訳(メタデータ) (2020-11-24T08:44:46Z) - Bi-Directional Attention for Joint Instance and Semantic Segmentation in
Point Clouds [9.434847591440485]
バックボーンニューラルネットワーク上にバイディレクショナル・アテンション・モジュールを構築し、3Dポイント・クラウド・インセプションを実現する。
これは、あるタスクの特徴から測定された類似度行列を使用して、他のタスクの非ローカル情報を集約する。
S3DISデータセットとPartNetデータセットに関する総合実験とアブレーション研究から,本手法の優位性を検証した。
論文 参考訳(メタデータ) (2020-03-11T17:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。