論文の概要: SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2407.02389v1
- Date: Tue, 2 Jul 2024 16:02:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 14:46:41.846695
- Title: SafaRi:Adaptive Sequence Transformer for Weakly Supervised Referring Expression Segmentation
- Title(参考訳): SafaRi:Wakly Supervised Referring Expression Segmentationのための適応シーケンス変換器
- Authors: Sayan Nag, Koustava Goswami, Srikrishna Karanam,
- Abstract要約: Referring Expression Consistency (RES) は、テキストによって参照される画像において、対象オブジェクトのセグメンテーションマスクを提供することを目的としている。
アルゴリズムの革新を取り入れたRESのための弱教師付きブートストラップアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 11.243400478302771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Expression Segmentation (RES) aims to provide a segmentation mask of the target object in an image referred to by the text (i.e., referring expression). Existing methods require large-scale mask annotations. Moreover, such approaches do not generalize well to unseen/zero-shot scenarios. To address the aforementioned issues, we propose a weakly-supervised bootstrapping architecture for RES with several new algorithmic innovations. To the best of our knowledge, ours is the first approach that considers only a fraction of both mask and box annotations (shown in Figure 1 and Table 1) for training. To enable principled training of models in such low-annotation settings, improve image-text region-level alignment, and further enhance spatial localization of the target object in the image, we propose Cross-modal Fusion with Attention Consistency module. For automatic pseudo-labeling of unlabeled samples, we introduce a novel Mask Validity Filtering routine based on a spatially aware zero-shot proposal scoring approach. Extensive experiments show that with just 30% annotations, our model SafaRi achieves 59.31 and 48.26 mIoUs as compared to 58.93 and 48.19 mIoUs obtained by the fully-supervised SOTA method SeqTR respectively on RefCOCO+@testA and RefCOCO+testB datasets. SafaRi also outperforms SeqTR by 11.7% (on RefCOCO+testA) and 19.6% (on RefCOCO+testB) in a fully-supervised setting and demonstrates strong generalization capabilities in unseen/zero-shot tasks.
- Abstract(参考訳): Referring Expression Segmentation (RES)は、テキストによって参照される画像(つまり、式を参照する)において、ターゲットオブジェクトのセグメンテーションマスクを提供することを目的としている。
既存の方法は大規模なマスクアノテーションを必要とする。
さらに、このような手法は目に見えない、ゼロショットのシナリオにうまく当てはまらない。
上記の問題に対処するために、いくつかの新しいアルゴリズムの革新を伴うRESのための弱い教師付きブートストラップアーキテクチャを提案する。
私たちの知る限りでは、トレーニング用のマスクとボックスアノテーション(図1と表1に記載されている)のごく一部しか考慮していないのは、私たちの最初のアプローチです。
このような低アノテーション設定におけるモデルの原則的トレーニングを実現するため,画像中の対象物体の空間的局所化をさらに促進するため,注意整合モジュールを用いたクロスモーダルフュージョンを提案する。
ラベルなしサンプルの自動擬似ラベル付けには,空間的に認識されたゼロショット提案スコアリングに基づく新しいマスク妥当性フィルタリングルーチンを導入する。
過剰な実験により、我々のモデルSafaRiは、RefCOCO+@testAとRefCOCO+testBのデータセット上で、フル教師付きSOTA法SeqTRで得られた58.93と48.19mIoUsと比較して59.31と48.26mIoUsを達成した。
SafaRiはまた、SeqTRを11.7%(RefCOCO+testA)、19.6%(RefCOCO+testB)で完全に監督された環境で上回り、目に見えないゼロショットタスクにおいて強力な一般化能力を示す。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - SAM as the Guide: Mastering Pseudo-Label Refinement in Semi-Supervised Referring Expression Segmentation [66.92696817276288]
SemiRESは、RESを実行するためにラベル付きデータとラベルなしデータの組み合わせを効果的に活用する半教師付きフレームワークである。
SemiRESはSegment Anything Model (SAM) を組み込んでいる。
利用可能な候補と正確なマスクが一致しない場合、Pixel-Wise Adjustment(PWA)戦略を開発する。
論文 参考訳(メタデータ) (2024-06-03T15:42:30Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Unveiling Parts Beyond Objects:Towards Finer-Granularity Referring Expression Segmentation [38.0788558329856]
MRES-32Mは、32.2M以上の高品質のマスクとキャプションから構成される。
さらに、UniRESという名前のシンプルな強力なモデルは、統一されたオブジェクトレベルと部分レベルグラウンドタスクを達成するように設計されている。
論文 参考訳(メタデータ) (2023-12-13T09:29:45Z) - Segment, Select, Correct: A Framework for Weakly-Supervised Referring Segmentation [63.13635858586001]
参照画像(RIS)は、自然言語文を通して画像中の物体を識別する問題である。
本稿では、RISを3つのステップに分解することで、RISに対処する弱い教師付きフレームワークを提案する。
最初の2ステップ(ゼロショットセグメントとセレクト)のみを使用して、他のゼロショットベースラインを最大16.5%上回る。
論文 参考訳(メタデータ) (2023-10-20T13:20:17Z) - Fine-Grained Visual Prompting [35.032567257651515]
Fine-Grained Visual Prompting (FGVP) は参照表現のゼロショット理解において優れた性能を示す。
RefCOCO+ testAサブセットで最大12.5%改善され、平均マージンが3.0%から4.6%向上した。
論文 参考訳(メタデータ) (2023-06-07T11:39:56Z) - SdAE: Self-distillated Masked Autoencoder [95.3684955370897]
本稿では,自己蒸留マスク付きオートエンコーダネットワークSdAEを提案する。
300エポックの事前トレーニングで、バニラViT-BaseモデルはImageNet-1k分類において84.1%の微調整精度を達成する。
論文 参考訳(メタデータ) (2022-07-31T15:07:25Z) - MST: Masked Self-Supervised Transformer for Visual Representation [52.099722121603506]
Transformerは自然言語処理(NLP)における自己教師型事前学習に広く利用されている。
我々は、画像の局所的コンテキストを明示的にキャプチャできる、MSTと呼ばれる新しいMasked Self-supervised Transformerアプローチを提案する。
MSTは、線形評価による300エポック事前トレーニングのみを使用して、DeiT-Sで76.9%のTop-1精度を達成する。
論文 参考訳(メタデータ) (2021-06-10T11:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。