論文の概要: Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence
- arxiv url: http://arxiv.org/abs/2312.00452v1
- Date: Fri, 1 Dec 2023 09:31:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:05:22.517961
- Title: Towards Generalizable Referring Image Segmentation via Target Prompt and
Visual Coherence
- Title(参考訳): ターゲットプロンプトと視覚コヒーレンスによる画像分割の一般化に向けて
- Authors: Yajie Liu, Pu Ge, Haoxiang Ma, Shichao Fan, Qingjie Liu, Di Huang,
Yunhong Wang
- Abstract要約: Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
本稿では,先述の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRISアプローチを提案する。
特に、制約のないテキストを扱うために、明示的で決定的なプロンプトで与えられた表現を増強し、統一された文脈での表現を補完することを提案する。
- 参考スコア(独自算出の注目度): 48.659338080020746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring image segmentation (RIS) aims to segment objects in an image
conditioning on free-from text descriptions. Despite the overwhelming progress,
it still remains challenging for current approaches to perform well on cases
with various text expressions or with unseen visual entities, limiting its
further application. In this paper, we present a novel RIS approach, which
substantially improves the generalization ability by addressing the two
dilemmas mentioned above. Specially, to deal with unconstrained texts, we
propose to boost a given expression with an explicit and crucial prompt, which
complements the expression in a unified context, facilitating target capturing
in the presence of linguistic style changes. Furthermore, we introduce a
multi-modal fusion aggregation module with visual guidance from a powerful
pretrained model to leverage spatial relations and pixel coherences to handle
the incomplete target masks and false positive irregular clumps which often
appear on unseen visual entities. Extensive experiments are conducted in the
zero-shot cross-dataset settings and the proposed approach achieves consistent
gains compared to the state-of-the-art, e.g., 4.15\%, 5.45\%, and 4.64\% mIoU
increase on RefCOCO, RefCOCO+ and ReferIt respectively, demonstrating its
effectiveness. Additionally, the results on GraspNet-RIS show that our approach
also generalizes well to new scenarios with large domain shifts.
- Abstract(参考訳): Referring Image segmentation (RIS) は、自由なテキスト記述に基づいて画像条件でオブジェクトを分割することを目的としている。
圧倒的な進歩にもかかわらず、現在のアプローチが様々なテキスト表現や見えない視覚的実体を持つケースでうまく機能することは依然として困難であり、さらなる適用を制限している。
本稿では,上記の2つのジレンマに対処することにより,一般化能力を大幅に向上させる新しいRIS手法を提案する。
特に、制約のないテキストを扱うために、表現を統一した文脈で補完する明示的かつ決定的なプロンプトによって所定の表現を増加させることを提案し、言語的スタイル変化の存在下でのターゲットキャプチャを容易にする。
さらに,空間的関係と画素コヒーレンスを利用して不完全なターゲットマスクや不完全な不規則な不規則な不規則なクランプを扱うために,強力な事前学習モデルから視覚誘導を施したマルチモーダル融合凝集モジュールを導入する。
ゼロショットのクロスデータセット設定で広範囲な実験を行い,提案手法は,refcoco,refcoco+,refertの4.15\%,5.45\%,4.64\%miou増加など,最先端の手法と比較し,その効果を実証した。
さらに、GraspNet-RISの結果は、我々のアプローチが大きなドメインシフトを持つ新しいシナリオにもうまく適用可能であることを示している。
関連論文リスト
- Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation [10.958014189747356]
画像セグメンテーション(RIS)を参照するための疑似監督として,参照表現を用いた高品質セグメンテーションマスクを自動生成する新しいフレームワークを提案する。
本手法は, RISベンチマークデータセットにおいて, 弱いSoTA法とゼロショットSoTA法の両方を著しく上回っている。
また、未確認領域における完全に教師された手法を超越し、RIS内のオープンワールドの課題に取り組む能力を証明している。
論文 参考訳(メタデータ) (2024-07-10T07:14:48Z) - Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation [114.72734384299476]
本稿では,言語駆動型ビジュアルコンセンサス(LDVC)アプローチを提案する。
クラス埋め込みを、その離散的で抽象的な性質からアンカーとして活用し、クラス埋め込みに向けて視覚的特徴を操る。
我々の手法は、目に見えないクラスに対するセグメンテーションモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-13T11:23:55Z) - IDRNet: Intervention-Driven Relation Network for Semantic Segmentation [34.09179171102469]
同時進行の視覚パターンは、画素関係モデリングが密接な予測タスクを促進することを示唆している。
印象的な結果にもかかわらず、既存のパラダイムは、しばしば不適切または効果的な文脈情報集約に悩まされる。
我々は,textbfIntervention-textbfDriven textbfRelation textbfNetworkを提案する。
論文 参考訳(メタデータ) (2023-10-16T18:37:33Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Exploring Explicit and Implicit Visual Relationships for Image
Captioning [11.82805641934772]
本稿では,画像キャプションのための領域レベルの表現を豊かにするために,明示的かつ暗黙的な視覚関係を探索する。
具体的には、オブジェクトペア上にセマンティックグラフを構築し、ゲートグラフ畳み込みネットワーク(Gated GCN)を利用して、近隣住民の情報を選択的に集約する。
暗黙的に、我々は変圧器から領域ベースの双方向エンコーダ表現を介して検出されたオブジェクト間のグローバルな相互作用を描画する。
論文 参考訳(メタデータ) (2021-05-06T01:47:51Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。