論文の概要: MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2411.19067v1
- Date: Thu, 28 Nov 2024 11:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:12.003691
- Title: MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
- Title(参考訳): MaskRIS: 画像セグメント参照のための意味的歪み認識データ拡張
- Authors: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim,
- Abstract要約: Referring Image Code (RIS)は、画像内のオブジェクトの識別とセグメンテーションを含む高度な視覚認識タスクである。
我々はMasked Referring Image Code (MaskRIS)と呼ばれる新しいトレーニングフレームワークを提案する。
MaskRISは画像とテキストのマスキングの両方を使用し、次にContextual Learningを使用してマスキング戦略の利点を完全に活用する。
- 参考スコア(独自算出の注目度): 38.3201448852059
- License:
- Abstract: Referring Image Segmentation (RIS) is an advanced vision-language task that involves identifying and segmenting objects within an image as described by free-form text descriptions. While previous studies focused on aligning visual and language features, exploring training techniques, such as data augmentation, remains underexplored. In this work, we explore effective data augmentation for RIS and propose a novel training framework called Masked Referring Image Segmentation (MaskRIS). We observe that the conventional image augmentations fall short of RIS, leading to performance degradation, while simple random masking significantly enhances the performance of RIS. MaskRIS uses both image and text masking, followed by Distortion-aware Contextual Learning (DCL) to fully exploit the benefits of the masking strategy. This approach can improve the model's robustness to occlusions, incomplete information, and various linguistic complexities, resulting in a significant performance improvement. Experiments demonstrate that MaskRIS can easily be applied to various RIS models, outperforming existing methods in both fully supervised and weakly supervised settings. Finally, MaskRIS achieves new state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code is available at https://github.com/naver-ai/maskris.
- Abstract(参考訳): Referring Image Segmentation (RIS) は、自由形式のテキスト記述によって記述された画像内のオブジェクトの識別とセグメンテーションを含む高度な視覚言語タスクである。
これまでの研究では、視覚的特徴と言語的特徴の整合性に重点を置いていたが、データ拡張のようなトレーニング手法の探求は、いまだに過小評価されている。
本研究では、RISのための効果的なデータ拡張について検討し、Masked Referring Image Segmentation (MaskRIS)と呼ばれる新しいトレーニングフレームワークを提案する。
従来の画像拡張ではRISが不足し,性能が低下するのに対して,単純なランダムマスキングではRISの性能が著しく向上することが観察された。
MaskRISは画像とテキストのマスキングの両方を使用し、次にDCL(Distortion-aware Contextual Learning)を使用してマスキング戦略の利点を完全に活用する。
このアプローチは、オクルージョン、不完全情報、および様々な言語的複雑さに対するモデルの堅牢性を改善することができ、結果として性能が大幅に向上する。
実験により、MaskRISは様々なRISモデルに容易に適用でき、完全に教師された設定と弱い教師付き設定の両方において既存の手法よりも優れていることが示された。
最後に、MaskRISはRefCOCO、RefCOCO+、RefCOCOgデータセット上での最先端のパフォーマンスを新たに達成する。
コードはhttps://github.com/naver-ai/maskris.comで入手できる。
関連論文リスト
- MaskCLIP++: A Mask-Based CLIP Fine-tuning Framework for Open-Vocabulary Image Segmentation [109.19165503929992]
オープン語彙画像のセグメンテーションはマスク生成器と視覚言語モデルとの相乗効果によって進歩している。
MaskCLIP++と呼ばれる新しい微調整フレームワークを提案し、このフレームワークは生成されたマスクの代わりにグラウンドトルースマスクを使用する。
我々は,A-847,PC-459,A-150,PC-59,PAS-20データセット上で+1.7,+2.3,+2.1,+3.1,+0.3 mIoUの性能改善を実現する。
論文 参考訳(メタデータ) (2024-12-16T05:44:45Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Curriculum Point Prompting for Weakly-Supervised Referring Image Segmentation [13.924553294859315]
Point PrompTing (PPT)はCLIPのテキスト画像アライメント機能とSAMの強力なマスク生成機能を利用するポイントジェネレータである。
PPTは、mIoUの弱い監督技術よりも著しく、一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-18T08:46:12Z) - Mask to reconstruct: Cooperative Semantics Completion for Video-text
Retrieval [19.61947785487129]
Mask for Semantics Completion (MASCOT) - 意味に基づくマスキングモデル。
我々のMASCOTは4つの主要なテキストビデオ検索ベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-05-13T12:31:37Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Improving self-supervised representation learning via sequential
adversarial masking [12.176299580413097]
マスキングベースのプレテキストタスクはNLPを超えて拡張され、コンピュータビジョンにおいて有用な事前学習の目的として機能する。
敵に異なる制約で連続的にマスクを生成する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-12-16T04:25:43Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Masked Autoencoders are Robust Data Augmentors [90.34825840657774]
ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。
本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
論文 参考訳(メタデータ) (2022-06-10T02:41:48Z) - OLED: One-Class Learned Encoder-Decoder Network with Adversarial Context
Masking for Novelty Detection [1.933681537640272]
新規性検出は、対象クラスの分布に属さないサンプルを認識するタスクである。
ディープオートエンコーダは多くの教師なしのノベルティ検出法のベースとして広く使われている。
我々は,MaskモジュールとReconstructorという2つの競合するネットワークからなるフレームワークを設計した。
論文 参考訳(メタデータ) (2021-03-27T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。