論文の概要: IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis
- arxiv url: http://arxiv.org/abs/2503.00936v1
- Date: Sun, 02 Mar 2025 15:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:47.587719
- Title: IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis
- Title(参考訳): IteRPrimE:Iterative Grad-CAM Refinementとプライマリワード強調によるゼロショット参照画像セグメンテーション
- Authors: Yuji Wang, Jingchen Ni, Yong Liu, Chun Yuan, Yansong Tang,
- Abstract要約: Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
- 参考スコア(独自算出の注目度): 46.502962768034166
- License:
- Abstract: Zero-shot Referring Image Segmentation (RIS) identifies the instance mask that best aligns with a specified referring expression without training and fine-tuning, significantly reducing the labor-intensive annotation process. Despite achieving commendable results, previous CLIP-based models have a critical drawback: the models exhibit a notable reduction in their capacity to discern relative spatial relationships of objects. This is because they generate all possible masks on an image and evaluate each masked region for similarity to the given expression, often resulting in decreased sensitivity to direct positional clues in text inputs. Moreover, most methods have weak abilities to manage relationships between primary words and their contexts, causing confusion and reduced accuracy in identifying the correct target region. To address these challenges, we propose IteRPrimE (Iterative Grad-CAM Refinement and Primary word Emphasis), which leverages a saliency heatmap through Grad-CAM from a Vision-Language Pre-trained (VLP) model for image-text matching. An iterative Grad-CAM refinement strategy is introduced to progressively enhance the model's focus on the target region and overcome positional insensitivity, creating a self-correcting effect. Additionally, we design the Primary Word Emphasis module to help the model handle complex semantic relations, enhancing its ability to attend to the intended object. Extensive experiments conducted on the RefCOCO/+/g, and PhraseCut benchmarks demonstrate that IteRPrimE outperforms previous state-of-the-art zero-shot methods, particularly excelling in out-of-domain scenarios.
- Abstract(参考訳): Zero-shot Referring Image Segmentation (RIS)は、トレーニングや微調整なしで特定の参照式に最もよく適合するインスタンスマスクを特定し、労働集約的なアノテーションプロセスを大幅に削減する。
しかし,従来のCLIPモデルでは,対象物の相対的空間的関係を識別する能力が著しく低下していた。
これは、画像上に可能なすべてのマスクを生成し、与えられた表現に類似した各マスク領域を評価し、テキスト入力における直接的な位置の手がかりに対する感度を低下させるためである。
さらに、ほとんどの手法は、主語とその文脈間の関係を管理する能力が弱いため、適切な対象領域を特定する際に混乱と精度の低下を引き起こす。
これらの課題に対処するため,IteRPrimE(Iterative Grad-CAM Refinement and primary word Emphasis)を提案する。
目標領域に対するモデルの焦点を徐々に強化し、位置不感度を克服し、自己補正効果を生み出すため、反復的なGrad-CAM改善戦略が導入された。
さらに、モデルが複雑な意味関係を扱うのを助けるために、プライマリワード強調モジュールを設計し、目的のオブジェクトへの参加能力を高める。
RefCOCO/+/g と PhraseCut のベンチマークで実施された大規模な実験では、IteRPrimE が以前の最先端のゼロショット法、特にドメイン外のシナリオで優れていることが示されている。
関連論文リスト
- Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Semi-supervised Semantic Segmentation Meets Masked Modeling:Fine-grained
Locality Learning Matters in Consistency Regularization [31.333862320143968]
半教師付きセマンティックセグメンテーションはラベル付き画像と豊富なラベル付き画像を利用してラベル効率の高い学習を実現することを目的としている。
我々は,より詳細な局所性学習により,より高密度なセグメンテーションを実現する,textttMaskMatchという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T03:28:53Z) - Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence [48.659338080020746]
Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
論文 参考訳(メタデータ) (2023-12-01T09:31:24Z) - DisCLIP: Open-Vocabulary Referring Expression Generation [37.789850573203694]
大規模ビジュアル・セマンティック・モデルであるCLIPを用いてLCMを誘導し、画像中のターゲット概念の文脈記述を生成する。
本研究では、シーン内の記述対象を正確に識別する受信機モデルの能力を評価することにより、生成されたテキストの品質を測定する。
本結果は,事前学習した視覚意味論モデルを用いて,高品質な文脈記述を生成する可能性を強調した。
論文 参考訳(メタデータ) (2023-05-30T15:13:17Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Efficient Modeling of Future Context for Image Captioning [38.52032153180971]
非自己回帰画像キャプション(NAIC)は、マスク操作の修正による2面関係を利用することができる。
提案手法は,自動測定と人的評価の両方において,最先端のベースラインを超えている。
論文 参考訳(メタデータ) (2022-07-22T06:21:43Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Causal Intervention for Weakly-Supervised Semantic Segmentation [122.1846968696862]
画像レベルのラベルのみを用いて、より優れたピクセルレベルの擬似マスクを生成することを目指している。
画像,コンテキスト,およびクラスラベル間の因果関係を分析するための構造因果モデルを提案する。
そこで本研究では,画像レベルの分類において,矛盾するバイアスを取り除くためのコンテキスト調整(CONTA)手法を提案する。
論文 参考訳(メタデータ) (2020-09-26T09:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。