論文の概要: TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework
- arxiv url: http://arxiv.org/abs/2407.18038v3
- Date: Tue, 10 Sep 2024 13:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 22:32:06.045737
- Title: TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework
- Title(参考訳): TiCoSS: 共同学習フレームワークにおけるセマンティックセグメンテーションとステレオマッチングの結合を強化する
- Authors: Guanfeng Tang, Zhiyuan Wu, Jiahang Li, Ping Zhong, Xieyuanli Chen, Huiming Lu, Rui Fan,
- Abstract要約: TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。
本研究は,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。
- 参考スコア(独自算出の注目度): 10.005854418001219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation and stereo matching, respectively analogous to the ventral and dorsal streams in our human brain, are two key components of autonomous driving perception systems. Addressing these two tasks with separate networks is no longer the mainstream direction in developing computer vision algorithms, particularly with the recent advances in large vision models and embodied artificial intelligence. The trend is shifting towards combining them within a joint learning framework, especially emphasizing feature sharing between the two tasks. The major contributions of this study lie in comprehensively tightening the coupling between semantic segmentation and stereo matching. Specifically, this study introduces three novelties: (1) a tightly coupled, gated feature fusion strategy, (2) a hierarchical deep supervision strategy, and (3) a coupling tightening loss function. The combined use of these technical contributions results in TiCoSS, a state-of-the-art joint learning framework that simultaneously tackles semantic segmentation and stereo matching. Through extensive experiments on the KITTI and vKITTI2 datasets, along with qualitative and quantitative analyses, we validate the effectiveness of our developed strategies and loss function, and demonstrate its superior performance compared to prior arts, with a notable increase in mIoU by over 9%. Our source code will be publicly available at mias.group/TiCoSS upon publication.
- Abstract(参考訳): セマンティックセグメンテーション(Semantic segmentation)とステレオマッチング(ステレオマッチング)は、それぞれ人間の脳の腹側と背側の流れに類似しており、自律運転認識システムの2つの重要な構成要素である。
これら2つのタスクに別々のネットワークで対処することは、コンピュータービジョンアルゴリズムの開発においてもはや主流の方向ではない。
この傾向は、共同学習フレームワーク内でそれらを組み合わせること、特に2つのタスク間の機能共有を強調することにシフトしている。
本研究の主な貢献は,セマンティックセグメンテーションとステレオマッチングの結合を包括的に強化することにある。
具体的には,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。
これらの技術的コントリビューションの併用により、TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。
KITTIとvKITTI2データセットに関する広範な実験を通じて、定性的かつ定量的な分析とともに、発達した戦略と損失関数の有効性を検証し、mIoUを9%以上増加させ、先行技術よりも優れた性能を示す。
ソースコードは公開後、mias.group/TiCoSSで公開されます。
関連論文リスト
- S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching
for Autonomous Driving [40.305452898732774]
S$3$M-Netはセマンティックセグメンテーションとステレオマッチングを同時に行うために開発された新しい共同学習フレームワークである。
S$3$M-Netは、両方のタスク間でRGBイメージから抽出された特徴を共有し、全体的なシーン理解能力が改善された。
論文 参考訳(メタデータ) (2024-01-21T06:47:33Z) - SCD-Net: Spatiotemporal Clues Disentanglement Network for
Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。
具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。
我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文 参考訳(メタデータ) (2023-09-11T21:32:13Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Motor Imagery Decoding Using Ensemble Curriculum Learning and
Collaborative Training [11.157243900163376]
マルチオブジェクトEEGデータセットは、いくつかの種類のドメインシフトを示す。
これらの領域シフトは、堅牢なクロスオブジェクトの一般化を妨げる。
複数の特徴抽出器を組み込んだ2段階モデルアンサンブルアーキテクチャを提案する。
我々のモデルアンサンブルアプローチはカリキュラム学習と協調学習の力を組み合わせたものであることを実証する。
論文 参考訳(メタデータ) (2022-11-21T13:45:44Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Bi-Directional Attention for Joint Instance and Semantic Segmentation in
Point Clouds [9.434847591440485]
バックボーンニューラルネットワーク上にバイディレクショナル・アテンション・モジュールを構築し、3Dポイント・クラウド・インセプションを実現する。
これは、あるタスクの特徴から測定された類似度行列を使用して、他のタスクの非ローカル情報を集約する。
S3DISデータセットとPartNetデータセットに関する総合実験とアブレーション研究から,本手法の優位性を検証した。
論文 参考訳(メタデータ) (2020-03-11T17:16:07Z) - Cross-modality Person re-identification with Shared-Specific Feature
Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。
モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文 参考訳(メタデータ) (2020-02-28T00:18:45Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。