論文の概要: Depth-Guided Semi-Supervised Instance Segmentation
- arxiv url: http://arxiv.org/abs/2406.17413v1
- Date: Tue, 25 Jun 2024 09:36:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 14:51:57.530186
- Title: Depth-Guided Semi-Supervised Instance Segmentation
- Title(参考訳): 深さ誘導半監督型インスタンスセグメンテーション
- Authors: Xin Chen, Jie Hu, Xiawu Zheng, Jianghang Lin, Liujuan Cao, Rongrong Ji,
- Abstract要約: Semi-Supervised Instance (SSIS)は、トレーニング中にラベルなしデータの量を活用することを目的としている。
従来のフレームワークは主に、ラベルなし画像のRGB情報を利用して擬似ラベルを生成する。
この制限を克服するために、Depth-Guided (DG)フレームワークを導入します。
- 参考スコア(独自算出の注目度): 62.80063539262021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-Supervised Instance Segmentation (SSIS) aims to leverage an amount of unlabeled data during training. Previous frameworks primarily utilized the RGB information of unlabeled images to generate pseudo-labels. However, such a mechanism often introduces unstable noise, as a single instance can display multiple RGB values. To overcome this limitation, we introduce a Depth-Guided (DG) SSIS framework. This framework uses depth maps extracted from input images, which represent individual instances with closely associated distance values, offering precise contours for distinct instances. Unlike RGB data, depth maps provide a unique perspective, making their integration into the SSIS process complex. To this end, we propose Depth Feature Fusion, which integrates features extracted from depth estimation. This integration allows the model to understand depth information better and ensure its effective utilization. Additionally, to manage the variability of depth images during training, we introduce the Depth Controller. This component enables adaptive adjustments of the depth map, enhancing convergence speed and dynamically balancing the loss weights between RGB and depth maps. Extensive experiments conducted on the COCO and Cityscapes datasets validate the efficacy of our proposed method. Our approach establishes a new benchmark for SSIS, outperforming previous methods. Specifically, our DG achieves 22.29%, 31.47%, and 35.14% mAP for 1%, 5%, and 10% labeled data on the COCO dataset, respectively.
- Abstract(参考訳): Semi-Supervised Instance Segmentation (SSIS)は、トレーニング中にラベルなしデータの量を活用することを目的としている。
従来のフレームワークは主に、ラベルなし画像のRGB情報を利用して擬似ラベルを生成する。
しかし、そのようなメカニズムは不安定なノイズを引き起こすことが多く、単一のインスタンスは複数のRGB値を表示することができる。
この制限を克服するために、DG(Depth-Guided) SSISフレームワークを導入します。
このフレームワークでは、入力画像から抽出された深度マップを使用して、密接に関連する距離値を持つ個々のインスタンスを表現し、異なるインスタンスに対して正確な輪郭を提供する。
RGBデータとは異なり、深度マップは独自の視点を提供し、SSISプロセスに統合する。
そこで本研究では,深度推定から抽出した特徴を統合したDepth Feature Fusionを提案する。
この統合により、モデルは深度情報をよりよく理解し、その有効利用を確実にすることができる。
さらに、トレーニング中の深度画像のばらつきを管理するために、Depth Controllerを導入する。
このコンポーネントは、深度マップの適応的な調整、収束速度の向上、RGBと深度マップ間の損失重みの動的バランスを可能にする。
COCOおよびCityscapesデータセットで実施した大規模な実験により,提案手法の有効性が検証された。
我々の手法はSSISの新しいベンチマークを確立し、従来の手法より優れている。
特に、当社のDGは、COCOデータセットのラベル付きデータそれぞれ1%、5%、10%で22.29%、31.47%、35.14%のmAPを達成した。
関連論文リスト
- Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Depth-Adapted CNNs for RGB-D Semantic Segmentation [2.341385717236931]
我々は、RGB畳み込みニューラルネットワーク(CNN)に深度情報を組み込む新しい枠組みを提案する。
具体的には、Z-ACNは2次元奥行き適応オフセットを生成し、RGB画像の特徴抽出を誘導する低レベル特徴に完全に制約される。
生成されたオフセットでは、基本的なCNN演算子を置き換えるために、2つの直感的で効果的な操作を導入する。
論文 参考訳(メタデータ) (2022-06-08T14:59:40Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - DynOcc: Learning Single-View Depth from Dynamic Occlusion Cues [37.837552043766166]
In-the-wild シーンからなる第1の深度データセット DynOcc を導入する。
提案手法は,これらのダイナミックシーンの手がかりを利用して,選択したビデオフレームのポイント間の深さ関係を推定する。
DynOccデータセットには、91Kフレームのさまざまなビデオセットから22Mの深さペアが含まれています。
論文 参考訳(メタデータ) (2021-03-30T22:17:36Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。