論文の概要: Mask Grounding for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2312.12198v1
- Date: Tue, 19 Dec 2023 14:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:13:37.018829
- Title: Mask Grounding for Referring Image Segmentation
- Title(参考訳): 画像セグメンテーション参照のためのマスク接地
- Authors: Yong Xien Chng, Henry Zheng, Yizeng Han, Xuchong Qiu, Gao Huang
- Abstract要約: Referring Image(RIS)は、自由形式の言語表現によって参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。
最先端のSOTA(State-of-the-art)手法の多くは、画素やワードレベルでの言語・画像のモダリティのギャップを被っている。
本稿では,言語機能内の視覚的グラウンド化を大幅に改善する,新しいマスクグラウンド化補助タスクを提案する。
- 参考スコア(独自算出の注目度): 45.81023579820535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Segmentation (RIS) is a challenging task that requires an
algorithm to segment objects referred by free-form language expressions.
Despite significant progress in recent years, most state-of-the-art (SOTA)
methods still suffer from considerable language-image modality gap at the pixel
and word level. These methods generally 1) rely on sentence-level language
features for language-image alignment and 2) lack explicit training supervision
for fine-grained visual grounding. Consequently, they exhibit weak object-level
correspondence between visual and language features. Without well-grounded
features, prior methods struggle to understand complex expressions that require
strong reasoning over relationships among multiple objects, especially when
dealing with rarely used or ambiguous clauses. To tackle this challenge, we
introduce a novel Mask Grounding auxiliary task that significantly improves
visual grounding within language features, by explicitly teaching the model to
learn fine-grained correspondence between masked textual tokens and their
matching visual objects. Mask Grounding can be directly used on prior RIS
methods and consistently bring improvements. Furthermore, to holistically
address the modality gap, we also design a cross-modal alignment loss and an
accompanying alignment module. These additions work synergistically with Mask
Grounding. With all these techniques, our comprehensive approach culminates in
MagNet Mask-grounded Network), an architecture that significantly outperforms
prior arts on three key benchmarks (RefCOCO, RefCOCO+ and G-Ref), demonstrating
our method's effectiveness in addressing current limitations of RIS algorithms.
Our code and pre-trained weights will be released.
- Abstract(参考訳): Referring Image Segmentation (RIS)は、自由形式の言語表現で参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。
近年の進歩にもかかわらず、ほとんどの最新技術(SOTA)手法は、画素やワードレベルでの言語と画像のモダリティの差がかなり大きい。
これらの方法全般
1) 文レベルの言語特徴を言語イメージアライメントに頼り、
2) きめ細かい視覚的接地のための明示的な訓練指導が欠如している。
その結果、視覚と言語の特徴の間のオブジェクトレベルの対応が弱い。
きちんとした特徴がなければ、事前の手法は複数のオブジェクト間の関係を強く推論する必要がある複雑な表現を理解するのに苦労する。
この課題に対処するために,マスク付きテキストトークンと一致する視覚オブジェクトとの微妙な対応をモデルに明示的に教えることにより,言語機能内の視覚的接地を著しく改善する新しいマスク接地補助タスクを提案する。
Mask Groundingは、以前のRISメソッドで直接使用することができ、一貫して改善をもたらす。
さらに,モダリティギャップに直感的に対処するために,クロスモーダルアライメント損失と付随アライメントモジュールを設計する。
これらの追加はマスクの接地と相乗的に機能する。
MagNet Mask-grounded Networkは3つの主要なベンチマーク(RefCOCO、RefCOCO+、G-Ref)で先行技術よりも優れており、RISアルゴリズムの現在の限界に対処する上での我々の手法の有効性を示している。
私たちのコードとトレーニング済みのウェイトがリリースされます。
関連論文リスト
- OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - MMNet: Multi-Mask Network for Referring Image Segmentation [6.462622145673872]
画像セグメンテーション(MMNet)のためのエンドツーエンドマルチマスクネットワークを提案する。
まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成する。
最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
論文 参考訳(メタデータ) (2023-05-24T10:02:27Z) - MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image
Pretraining [138.86293836634323]
MaskCLIPは、新たに提案されたマスク付き自己蒸留をコントラスト言語イメージ事前学習に組み込む。
MaskCLIPは、言語エンコーダの誘導により、線形探索、微調整、ゼロショット性能において優れた結果が得られる。
論文 参考訳(メタデータ) (2022-08-25T17:59:58Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。