論文の概要: Referring Image Segmentation Using Text Supervision
- arxiv url: http://arxiv.org/abs/2308.14575v1
- Date: Mon, 28 Aug 2023 13:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 13:43:57.306026
- Title: Referring Image Segmentation Using Text Supervision
- Title(参考訳): テキストによる画像分割の参照
- Authors: Fang Liu, Yuhao Liu, Yuqiu Kong, Ke Xu, Lihe Zhang, Baocai Yin,
Gerhard Hancke, Rynson Lau
- Abstract要約: 既存の参照画像(RIS)メソッドは、監視のために高価なピクセルレベルまたはボックスレベルのアノテーションを必要とするのが一般的である。
本稿では,対象の局所化問題を分類プロセスとして定式化するための,弱教師付きRISフレームワークを提案する。
我々のフレームワークは、既存の完全教師付きRISメソッドに対して有望な性能を達成しつつ、関連する領域から適応した最先端の弱教師付き手法より優れた性能を実現している。
- 参考スコア(独自算出の注目度): 44.27304699305985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing Referring Image Segmentation (RIS) methods typically require
expensive pixel-level or box-level annotations for supervision. In this paper,
we observe that the referring texts used in RIS already provide sufficient
information to localize the target object. Hence, we propose a novel
weakly-supervised RIS framework to formulate the target localization problem as
a classification process to differentiate between positive and negative text
expressions. While the referring text expressions for an image are used as
positive expressions, the referring text expressions from other images can be
used as negative expressions for this image. Our framework has three main
novelties. First, we propose a bilateral prompt method to facilitate the
classification process, by harmonizing the domain discrepancy between visual
and linguistic features. Second, we propose a calibration method to reduce
noisy background information and improve the correctness of the response maps
for target object localization. Third, we propose a positive response map
selection strategy to generate high-quality pseudo-labels from the enhanced
response maps, for training a segmentation network for RIS inference. For
evaluation, we propose a new metric to measure localization accuracy.
Experiments on four benchmarks show that our framework achieves promising
performances to existing fully-supervised RIS methods while outperforming
state-of-the-art weakly-supervised methods adapted from related areas. Code is
available at https://github.com/fawnliu/TRIS.
- Abstract(参考訳): 既存の参照イメージセグメンテーション(RIS)メソッドは、監視のために高価なピクセルレベルまたはボックスレベルのアノテーションを必要とする。
本稿では、RISで使われている参照テキストが、対象オブジェクトをローカライズするのに十分な情報を提供していることを観察する。
そこで本研究では,対象の局所化問題を正と負のテキスト表現を区別する分類プロセスとして定式化する,弱教師付きRISフレームワークを提案する。
画像の参照テキスト表現を正の表現として用いる一方、他の画像からの参照テキスト表現を負の表現として用いることができる。
私たちの枠組みには3つの新しい点がある。
まず,視覚的特徴と言語的特徴の領域差を調和させることにより,分類プロセスを容易にする二者間プロンプト手法を提案する。
第2に,ノイズの少ない背景情報を削減するキャリブレーション手法を提案し,対象物体の定位に対する応答マップの正確性を改善する。
第3に,ris推定のためのセグメンテーションネットワークを訓練するために,強化された応答マップから高品質な擬似ラベルを生成する正の応答マップ選択戦略を提案する。
評価のために,ローカライズ精度を測定するための新しい指標を提案する。
4つのベンチマーク実験により,本フレームワークは既存の完全教師付きRIS手法に対して有望な性能を達成しつつ,関連する領域から適応した最先端の弱教師付き手法より優れた性能を発揮することが示された。
コードはhttps://github.com/fawnliu/trisで入手できる。
関連論文リスト
- Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - HARIS: Human-Like Attention for Reference Image Segmentation [5.808325471170541]
本稿では,Human-Like Attention機構を導入したHARISと呼ばれる参照画像分割手法を提案する。
提案手法は,最先端性能とゼロショット能力に優れる。
論文 参考訳(メタデータ) (2024-05-17T11:29:23Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Question-Answer Cross Language Image Matching for Weakly Supervised
Semantic Segmentation [37.15828464616587]
クラスアクティベーションマップ(CAM)は、弱教師付きセマンティックセグメンテーションの一般的なツールとして登場した。
我々はWSSS(QA-CLIMS)のための質問応答クロスランゲージ画像マッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:55:13Z) - Bilateral Reference for High-Resolution Dichotomous Image Segmentation [109.35828258964557]
高分解能ジコトコス像分割(DIS)のための新しい両側参照フレームワーク(BiRefNet)を導入する。
それは2つの重要な構成要素から構成される: 局在モジュール (LM) と再構成モジュール (RM) と、提案した両側参照 (BiRef) である。
RM内では、画像の階層的パッチがソース参照を提供し、勾配マップがターゲット参照として機能する、再構成プロセスにBiRefを利用する。
論文 参考訳(メタデータ) (2024-01-07T07:56:47Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。