論文の概要: Finding NeMo: Negative-mined Mosaic Augmentation for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2411.01494v1
- Date: Sun, 03 Nov 2024 09:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:55.305512
- Title: Finding NeMo: Negative-mined Mosaic Augmentation for Referring Image Segmentation
- Title(参考訳): NeMoの発見:イメージセグメンテーションのための負のマイニングモザイク拡張
- Authors: Seongsu Ha, Chaeyun Kim, Donghwa Kim, Junho Lee, Sangho Lee, Joonseok Lee,
- Abstract要約: 最近のRISモデルは、簡単なシナリオと難しいシナリオの間に大きなパフォーマンスのギャップをみせています。
我々はNeMo(Negative-mined Mosaic Augmentation)という強力なデータ拡張手法を提案する。
NeMoはトレーニング画像をモザイクに拡張し、事前訓練されたマルチモーダルアライメントモデルにより慎重に3つの負の画像をキュレートする。
- 参考スコア(独自算出の注目度): 18.429833114307513
- License:
- Abstract: Referring Image Segmentation is a comprehensive task to segment an object referred by a textual query from an image. In nature, the level of difficulty in this task is affected by the existence of similar objects and the complexity of the referring expression. Recent RIS models still show a significant performance gap between easy and hard scenarios. We pose that the bottleneck exists in the data, and propose a simple but powerful data augmentation method, Negative-mined Mosaic Augmentation (NeMo). This method augments a training image into a mosaic with three other negative images carefully curated by a pretrained multimodal alignment model, e.g., CLIP, to make the sample more challenging. We discover that it is critical to properly adjust the difficulty level, neither too ambiguous nor too trivial. The augmented training data encourages the RIS model to recognize subtle differences and relationships between similar visual entities and to concretely understand the whole expression to locate the right target better. Our approach shows consistent improvements on various datasets and models, verified by extensive experiments.
- Abstract(参考訳): Referring Image Segmentationは、画像からテキストクエリによって参照されるオブジェクトをセグメントする包括的なタスクである。
本質的には、このタスクの難易度は、類似したオブジェクトの存在と参照表現の複雑さによって影響を受ける。
最近のRISモデルは、簡単なシナリオと難しいシナリオの間に大きなパフォーマンスのギャップをみせています。
このボトルネックがデータに存在することを仮定し,NeMo(Negative-mined Mosaic Augmentation)という単純なデータ拡張手法を提案する。
この方法は、トレーニング画像をモザイクに拡張し、事前訓練されたマルチモーダルアライメントモデル(例えば、CLIP)によって慎重にキュレートされた他の3つの負の画像を用いて、サンプルをより困難なものにする。
難易度を適切に調整することが重要であり、曖昧さも自明さも伴わない。
強化トレーニングデータにより、RISモデルは類似の視覚的実体間の微妙な相違や関係を認識し、表現全体を具体的に理解し、適切なターゲットをよりよく見つけることが促される。
提案手法は,広範囲な実験により検証された各種データセットとモデルに対して一貫した改善を示す。
関連論文リスト
- UnSeg: One Universal Unlearnable Example Generator is Enough against All Image Segmentation [64.01742988773745]
未承認のプライベートデータ上での大規模なイメージセグメンテーションモデルのトレーニングに関して、プライバシーに関する懸念が高まっている。
我々は、学習不可能な例の概念を利用して、学習不可能なノイズを原画像に生成し、付加することにより、モデルトレーニングに使用不能な画像を作成する。
6つのメインストリームイメージセグメンテーションタスク、10つの広く使われているデータセット、7つの異なるネットワークアーキテクチャでUnSegの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-13T16:34:46Z) - Select-Mosaic: Data Augmentation Method for Dense Small Object Scenes [4.418515380386838]
モザイクデータ拡張技術は、トレーニングデータの多様性と複雑さを高めるために複数の画像を縫合する。
本稿では,詳細な領域選択戦略により改良されたSelect-Mosaicデータ拡張手法を提案する。
改良されたSelect-Mosaic法は、高密度小物体検出タスクの処理において優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-08T09:22:08Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - A Multi-Task Cross-Task Learning Architecture for Ad-hoc Uncertainty
Estimation in 3D Cardiac MRI Image Segmentation [0.0]
画素レベル(セグメンテーション)タスクと幾何学レベル(距離マップ)タスクの相関を強制するマルチタスククロスタスク学習整合性アプローチを提案する。
本研究は、与えられたモデルから低品質セグメンテーションをフラグする我々のモデルの可能性をさらに示すものである。
論文 参考訳(メタデータ) (2021-09-16T03:53:24Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - Hard Negative Mixing for Contrastive Learning [29.91220669060252]
我々は、コントラスト学習の重要な側面、すなわちハードネガティブの影響は、これまで無視されてきたと論じている。
計算オーバーヘッドを最小限に抑えながら、オンザフライで計算できる機能レベルでのハードネガティブな混合戦略を提案する。
論文 参考訳(メタデータ) (2020-10-02T14:34:58Z) - Importance of Self-Consistency in Active Learning for Semantic
Segmentation [31.392212891018655]
我々は,少数のラベル付きデータにのみアクセス可能なデータ駆動モデルの性能を向上させるために,自己整合性は自己超越の強力な情報源となることを示す。
提案するアクティブラーニングフレームワークでは,ラベル付けが必要な小さな画像パッチを反復的に抽出する。
現在のモデルが最も分類に苦労しているイメージパッチを見つけることができます。
論文 参考訳(メタデータ) (2020-08-04T22:18:35Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Complementing Representation Deficiency in Few-shot Image
Classification: A Meta-Learning Approach [27.350615059290348]
本稿では,MCRNetを用いたメタラーニング手法を提案する。
特に、潜時空間を埋め込んで、潜時符号を余分な表現情報で再構成し、表現不足を補完する。
我々のエンドツーエンドフレームワークは、3つの標準的な数ショット学習データセット上の画像分類における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-21T13:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。