論文の概要: Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2407.07412v2
- Date: Mon, 15 Jul 2024 07:35:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 13:41:05.220040
- Title: Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation
- Title(参考訳): Pseudo-RIS:画像セグメント参照のための識別型擬似スーパービジョン生成
- Authors: Seonghoon Yu, Paul Hongsuck Seo, Jeany Son,
- Abstract要約: 画像セグメンテーション(RIS)を参照するための疑似監督として,参照表現を用いた高品質セグメンテーションマスクを自動生成する新しいフレームワークを提案する。
本手法は, RISベンチマークデータセットにおいて, 弱いSoTA法とゼロショットSoTA法の両方を著しく上回っている。
また、未確認領域における完全に教師された手法を超越し、RIS内のオープンワールドの課題に取り組む能力を証明している。
- 参考スコア(独自算出の注目度): 10.958014189747356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new framework that automatically generates high-quality segmentation masks with their referring expressions as pseudo supervisions for referring image segmentation (RIS). These pseudo supervisions allow the training of any supervised RIS methods without the cost of manual labeling. To achieve this, we incorporate existing segmentation and image captioning foundation models, leveraging their broad generalization capabilities. However, the naive incorporation of these models may generate non-distinctive expressions that do not distinctively refer to the target masks. To address this challenge, we propose two-fold strategies that generate distinctive captions: 1) 'distinctive caption sampling', a new decoding method for the captioning model, to generate multiple expression candidates with detailed words focusing on the target. 2) 'distinctiveness-based text filtering' to further validate the candidates and filter out those with a low level of distinctiveness. These two strategies ensure that the generated text supervisions can distinguish the target from other objects, making them appropriate for the RIS annotations. Our method significantly outperforms both weakly and zero-shot SoTA methods on the RIS benchmark datasets. It also surpasses fully supervised methods in unseen domains, proving its capability to tackle the open-world challenge within RIS. Furthermore, integrating our method with human annotations yields further improvements, highlighting its potential in semi-supervised learning applications.
- Abstract(参考訳): 画像セグメンテーション(RIS)を参照するための疑似監督として,参照表現を用いた高品質セグメンテーションマスクを自動生成するフレームワークを提案する。
これらの疑似監督は、手動ラベリングのコストを伴わずに、監督されたRISメソッドのトレーニングを可能にする。
これを実現するために,既存のセグメンテーションと画像キャプション基礎モデルを導入し,その広範な一般化機能を活用する。
しかし、これらのモデルの素直な組み込みは、ターゲットマスクを特異的に参照しない非識別的な表現を生成する可能性がある。
この課題に対処するために, 特徴あるキャプションを生成する2つの戦略を提案する。
1)「識別的キャプションサンプリング」はキャプションモデルの新しいデコード手法であり、ターゲットに焦点を絞った詳細な単語で複数の表現候補を生成する。
2)「識別性に基づくテキストフィルタリング」により、候補をさらに検証し、低レベルの特徴のある候補をフィルタリングする。
これら2つの戦略は、生成されたテキスト管理がターゲットを他のオブジェクトと区別し、RISアノテーションに適合させることを保証する。
本手法は, RISベンチマークデータセットにおいて, 弱いSoTA法とゼロショットSoTA法の両方を著しく上回っている。
また、未確認領域における完全に教師された手法を超越し、RIS内のオープンワールドの課題に取り組む能力を証明している。
さらに,本手法を人間のアノテーションと組み合わせることで,半教師あり学習アプリケーションにおけるその可能性を強調し,さらなる改善がもたらされる。
関連論文リスト
- Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - Applying Unsupervised Semantic Segmentation to High-Resolution UAV Imagery for Enhanced Road Scene Parsing [12.558144256470827]
新規な教師なし道路解析フレームワークについて紹介する。
提案手法は,手動のアノテーションを使わずに,開発データセット上で89.96%のmIoUの平均インターセクションを実現する。
論文 参考訳(メタデータ) (2024-02-05T13:16:12Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Language-guided Few-shot Semantic Segmentation [23.46604057006498]
そこで本稿では,言語情報のみを用いたセマンティックセマンティックセグメンテーションの課題に対処する革新的な手法を提案する。
提案手法は,テキストプロンプトから高品質な擬似セマンティックマスクを生成する,視覚言語によるマスク蒸留方式である。
2つのベンチマークデータセットを用いた実験により,言語誘導型少数ショットセマンティックセマンティックセグメンテーションの新たなベースラインが確立された。
論文 参考訳(メタデータ) (2023-11-23T09:08:49Z) - Contrastive Pseudo Learning for Open-World DeepFake Attribution [67.58954345538547]
オープンワールド・ディープフェイク (OW-DFA) と呼ばれる新しいベンチマークを導入する。
OW-DFAタスクにおけるコントラスト擬似学習(Contrastive Pseudo Learning, CPL)と呼ばれる新しいフレームワークを提案する。1)グローバル・ローカル投票モジュールを導入し、異なる操作領域の偽顔の特徴的アライメントを誘導し、2)信頼に基づくソフト擬似ラベル戦略を設計し、類似の手法による非ラベル集合における擬似雑音の軽減を図る。
論文 参考訳(メタデータ) (2023-09-20T08:29:22Z) - Referring Image Segmentation Using Text Supervision [44.27304699305985]
既存の参照画像(RIS)メソッドは、監視のために高価なピクセルレベルまたはボックスレベルのアノテーションを必要とするのが一般的である。
本稿では,対象の局所化問題を分類プロセスとして定式化するための,弱教師付きRISフレームワークを提案する。
我々のフレームワークは、既存の完全教師付きRISメソッドに対して有望な性能を達成しつつ、関連する領域から適応した最先端の弱教師付き手法より優れた性能を実現している。
論文 参考訳(メタデータ) (2023-08-28T13:40:47Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。