論文の概要: Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2410.01341v2
- Date: Mon, 23 Dec 2024 07:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:21:20.735163
- Title: Cognition Transferring and Decoupling for Text-supervised Egocentric Semantic Segmentation
- Title(参考訳): テキスト教師付きエゴセントリックセマンティックセマンティックセグメンテーションにおける認知伝達とデカップリング
- Authors: Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Fanman Meng, Qingbo Wu, Hongliang Li,
- Abstract要約: Egocentic Semantic (TESS)タスクは、画像レベルのラベルからテキストによって弱められたエゴセントリックなイメージにピクセルレベルのカテゴリを割り当てることを目的としている。
本稿では、まず、画像とテキストを関連づけて、自我中心の着用者オブジェクトの関係を学習する認知伝達デカップリングネットワーク(CTDN)を提案する。
- 参考スコア(独自算出の注目度): 17.35953923039954
- License:
- Abstract: In this paper, we explore a novel Text-supervised Egocentic Semantic Segmentation (TESS) task that aims to assign pixel-level categories to egocentric images weakly supervised by texts from image-level labels. In this task with prospective potential, the egocentric scenes contain dense wearer-object relations and inter-object interference. However, most recent third-view methods leverage the frozen Contrastive Language-Image Pre-training (CLIP) model, which is pre-trained on the semantic-oriented third-view data and lapses in the egocentric view due to the ``relation insensitive" problem. Hence, we propose a Cognition Transferring and Decoupling Network (CTDN) that first learns the egocentric wearer-object relations via correlating the image and text. Besides, a Cognition Transferring Module (CTM) is developed to distill the cognitive knowledge from the large-scale pre-trained model to our model for recognizing egocentric objects with various semantics. Based on the transferred cognition, the Foreground-background Decoupling Module (FDM) disentangles the visual representations to explicitly discriminate the foreground and background regions to mitigate false activation areas caused by foreground-background interferential objects during egocentric relation learning. Extensive experiments on four TESS benchmarks demonstrate the effectiveness of our approach, which outperforms many recent related methods by a large margin. Code will be available at https://github.com/ZhaofengSHI/CTDN.
- Abstract(参考訳): 本稿では,画像レベルラベルからのテキストで弱中心画像に画素レベルのカテゴリを割り当てることを目的とした,テキスト管理エゴセントリックセマンティックセマンティックセマンティックセマンティックセマンティクス(TESS)タスクについて検討する。
本課題では, 被写体間干渉と被写体間干渉の密接な関係を, エゴセントリックなシーンで表現する。
しかし、最近の第3のビュー手法では、"リレーショナル・インセンティブ"問題により、セマンティック指向のサードビューデータとエゴセントリックな視点で事前訓練された、フリーズされたコントラシブ・ランゲージ・イメージ・プレトレーニング(CLIP)モデルを活用している。
そこで我々は,まず,画像とテキストを関連づけることで,自我中心の装着者・対象関係を学習する認知伝達デカップリングネットワーク(CTDN)を提案する。
さらに,認知伝達モジュール (CTM) を用いて, 大規模事前学習モデルから認知知識を抽出し, 多様な意味を持つ自我中心の物体を認識する。
転送された認識に基づいて、フォアグラウンド・バックグラウンド・デカップリング・モジュール(FDM)は、エゴセントリックな関係学習中に、フォアグラウンド・バックグラウンド・デカップリング・モジュール(FDM)が、フォアグラウンド・バックグラウンド・デカップリング・モジュール(FDM)をアンタングルして、フォアグラウンドとバックグラウンド領域を明示的に識別し、フォアグラウンド・バックグラウンド・インターフェクティブ・オブジェクトによる偽のアクティベーション領域を緩和する。
4つのTESSベンチマークの大規模な実験により、我々のアプローチの有効性が示され、これは最近の多くのメソッドよりも大きなマージンで優れています。
コードはhttps://github.com/ZhaofengSHI/CTDN.comで入手できる。
関連論文リスト
- Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Contrastive Object-level Pre-training with Spatial Noise Curriculum
Learning [12.697842097171119]
本稿では,生成した領域を適応的に拡張するカリキュラム学習機構を提案する。
実験の結果,マルチオブジェクトシーンイメージデータセットの事前学習において,MoCo v2のベースラインに対するアプローチは,複数のオブジェクトレベルタスクに対して大きなマージンで改善されていることがわかった。
論文 参考訳(メタデータ) (2021-11-26T18:29:57Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Semantics-Driven Unsupervised Learning for Monocular Depth and
Ego-Motion Estimation [33.83396613039467]
ビデオからの単眼深度と自我運動推定のためのセマンティクス駆動型教師なし学習手法を提案する。
近年の教師なし学習法では, 合成ビューと実画像の光度誤差を指導信号として用いている。
論文 参考訳(メタデータ) (2020-06-08T05:55:07Z) - Gradient-Induced Co-Saliency Detection [81.54194063218216]
Co-SOD(Co-saliency Detection)は、一般的な唾液前景を関連画像のグループに分割することを目的としている。
本稿では,人間の行動にインスパイアされた,勾配誘導型共分散検出法を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:40:55Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。