Fugu-MT 論文翻訳(概要): TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework

論文の概要: TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework

arxiv url: http://arxiv.org/abs/2407.18038v3
Date: Tue, 10 Sep 2024 13:48:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 22:32:06.045737
Title: TiCoSS: Tightening the Coupling between Semantic Segmentation and Stereo Matching within A Joint Learning Framework
Title（参考訳）: TiCoSS: 共同学習フレームワークにおけるセマンティックセグメンテーションとステレオマッチングの結合を強化する
Authors: Guanfeng Tang, Zhiyuan Wu, Jiahang Li, Ping Zhong, Xieyuanli Chen, Huiming Lu, Rui Fan,
Abstract要約: TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。本研究は,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。
参考スコア（独自算出の注目度）: 10.005854418001219
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semantic segmentation and stereo matching, respectively analogous to the ventral and dorsal streams in our human brain, are two key components of autonomous driving perception systems. Addressing these two tasks with separate networks is no longer the mainstream direction in developing computer vision algorithms, particularly with the recent advances in large vision models and embodied artificial intelligence. The trend is shifting towards combining them within a joint learning framework, especially emphasizing feature sharing between the two tasks. The major contributions of this study lie in comprehensively tightening the coupling between semantic segmentation and stereo matching. Specifically, this study introduces three novelties: (1) a tightly coupled, gated feature fusion strategy, (2) a hierarchical deep supervision strategy, and (3) a coupling tightening loss function. The combined use of these technical contributions results in TiCoSS, a state-of-the-art joint learning framework that simultaneously tackles semantic segmentation and stereo matching. Through extensive experiments on the KITTI and vKITTI2 datasets, along with qualitative and quantitative analyses, we validate the effectiveness of our developed strategies and loss function, and demonstrate its superior performance compared to prior arts, with a notable increase in mIoU by over 9%. Our source code will be publicly available at mias.group/TiCoSS upon publication.
Abstract（参考訳）: セマンティックセグメンテーション(Semantic segmentation)とステレオマッチング(ステレオマッチング)は、それぞれ人間の脳の腹側と背側の流れに類似しており、自律運転認識システムの2つの重要な構成要素である。これら2つのタスクに別々のネットワークで対処することは、コンピュータービジョンアルゴリズムの開発においてもはや主流の方向ではない。この傾向は、共同学習フレームワーク内でそれらを組み合わせること、特に2つのタスク間の機能共有を強調することにシフトしている。本研究の主な貢献は,セマンティックセグメンテーションとステレオマッチングの結合を包括的に強化することにある。具体的には,(1)密結合型ゲート型特徴融合戦略,(2)階層型深層監視戦略,(3)結合密化損失関数の3つの新しい特徴を紹介する。これらの技術的コントリビューションの併用により、TiCoSSは、セマンティックセグメンテーションとステレオマッチングを同時に扱う最先端のジョイントラーニングフレームワークである。 KITTIとvKITTI2データセットに関する広範な実験を通じて、定性的かつ定量的な分析とともに、発達した戦略と損失関数の有効性を検証し、mIoUを9%以上増加させ、先行技術よりも優れた性能を示す。ソースコードは公開後、mias.group/TiCoSSで公開されます。

関連論文リスト

Fully Differentiable Bidirectional Dual-Task Synergistic Learning for Semi-Supervised 3D Medical Image Segmentation [3.9950415168730107]
半教師付き学習は、ラベルなしデータを活用することにより、画像セグメンテーションのための大きなピクセル単位のラベル付きデータセットの必要性を緩和する。我々は,4つの重要なSSLコンポーネントをシームレスに統合し,拡張する,完全に微分可能な双方向シナジスティックラーニング(DBiSL)フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-10T03:44:24Z)
MEJO: MLLM-Engaged Surgical Triplet Recognition via Inter- and Intra-Task Joint Optimization [52.149337961205624]
手術用三重項認識のためのタスク間最適化とタスク内最適化を両立する枠組みを提案する。タスク間最適化のために、タスク共有およびタスク固有コンポーネントに表現を分解する共有特徴分散学習スキーム(S$2$D)を導入する。タスク内最適化競合に対して,正負の曖昧さを識別・再バランスするコーディネート・グラディエント・ラーニング(CGL)戦略を開発する。
論文参考訳（メタデータ） (2025-09-16T09:48:52Z)
RL-U$^2$Net: A Dual-Branch UNet with Reinforcement Learning-Assisted Multimodal Feature Fusion for Accurate 3D Whole-Heart Segmentation [0.624829068285122]
機能アライメントのための強化学習により強化されたデュアルブランチU-Netアーキテクチャを提案する。このモデルは、デュアルブランチU字型ネットワークを用いて、CTとMRIのパッチを並列に処理し、新しいRL-XAlignモジュールを導入する。公開されているMM-WHS 2017データセットの実験結果は、提案されたRL-U$2$Netが既存の最先端メソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-08-04T16:12:06Z)
Confidence-driven Gradient Modulation for Multimodal Human Activity Recognition: A Dynamic Contrastive Dual-Path Learning Approach [3.0868241505670198]
動的コントラストデュアルパスネットワーク(D-HAR)と呼ばれる新しいフレームワークを提案する。まず、デュアルパスの特徴抽出アーキテクチャを使用し、ResNetとDenseCDPNetが協調してマルチモーダルセンサデータを処理している。第二に、局所的な知覚から意味的抽象への進歩的なアライメントを実現するために、多段階のコントラスト学習機構を導入する。第3に、バックプロパゲーション中の各モード分岐の学習強度を動的に監視・調整する信頼性駆動型勾配変調方式を提案する。
論文参考訳（メタデータ） (2025-07-03T17:37:46Z)
S$^3$M-Net: Joint Learning of Semantic Segmentation and Stereo Matching for Autonomous Driving [40.305452898732774]
S$3$M-Netはセマンティックセグメンテーションとステレオマッチングを同時に行うために開発された新しい共同学習フレームワークである。 S$3$M-Netは、両方のタスク間でRGBイメージから抽出された特徴を共有し、全体的なシーン理解能力が改善された。
論文参考訳（メタデータ） (2024-01-21T06:47:33Z)
SCD-Net: Spatiotemporal Clues Disentanglement Network for Self-supervised Skeleton-based Action Recognition [39.99711066167837]
本稿では、SCD-Net(Stemporal Clues Disentanglement Network)という、対照的な学習フレームワークを紹介する。具体的には,これらのシーケンスを特徴抽出器と統合し,空間領域と時間領域からそれぞれ明確な手がかりを導出する。我々は,NTU-+D (60&120) PKU-MMDI (&I) データセットの評価を行い,行動認識,行動検索,伝達学習などの下流タスクを網羅した。
論文参考訳（メタデータ） (2023-09-11T21:32:13Z)
Re-mine, Learn and Reason: Exploring the Cross-modal Semantic Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-07-25T14:20:52Z)
Motor Imagery Decoding Using Ensemble Curriculum Learning and Collaborative Training [11.157243900163376]
マルチオブジェクトEEGデータセットは、いくつかの種類のドメインシフトを示す。これらの領域シフトは、堅牢なクロスオブジェクトの一般化を妨げる。複数の特徴抽出器を組み込んだ2段階モデルアンサンブルアーキテクチャを提案する。我々のモデルアンサンブルアプローチはカリキュラム学習と協調学習の力を組み合わせたものであることを実証する。
論文参考訳（メタデータ） (2022-11-21T13:45:44Z)
Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。 2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。 3つの大規模データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2021-08-10T09:25:07Z)
CoADNet: Collaborative Aggregation-and-Distribution Networks for Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文参考訳（メタデータ） (2020-11-10T04:28:11Z)
Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文参考訳（メタデータ） (2020-08-21T10:45:09Z)
Bi-Directional Attention for Joint Instance and Semantic Segmentation in Point Clouds [9.434847591440485]
バックボーンニューラルネットワーク上にバイディレクショナル・アテンション・モジュールを構築し、3Dポイント・クラウド・インセプションを実現する。これは、あるタスクの特徴から測定された類似度行列を使用して、他のタスクの非ローカル情報を集約する。 S3DISデータセットとPartNetデータセットに関する総合実験とアブレーション研究から,本手法の優位性を検証した。
論文参考訳（メタデータ） (2020-03-11T17:16:07Z)
Cross-modality Person re-identification with Shared-Specific Feature Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文参考訳（メタデータ） (2020-02-28T00:18:45Z)
Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文参考訳（メタデータ） (2020-01-06T20:03:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。