論文の概要: Spatial Semantic Recurrent Mining for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2405.09006v1
- Date: Wed, 15 May 2024 00:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 14:45:30.667158
- Title: Spatial Semantic Recurrent Mining for Referring Image Segmentation
- Title(参考訳): 画像セグメント参照のための空間的セマンティックリカレントマイニング
- Authors: Jiaxing Yang, Lihe Zhang, Jiayu Sun, Huchuan Lu,
- Abstract要約: 高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
- 参考スコア(独自算出の注目度): 63.34997546393106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring Image Segmentation (RIS) consistently requires language and appearance semantics to more understand each other. The need becomes acute especially under hard situations. To achieve, existing works tend to resort to various trans-representing mechanisms to directly feed forward language semantic along main RGB branch, which however will result in referent distribution weakly-mined in space and non-referent semantic contaminated along channel. In this paper, we propose Spatial Semantic Recurrent Mining (S\textsuperscript{2}RM) to achieve high-quality cross-modality fusion. It follows a working strategy of trilogy: distributing language feature, spatial semantic recurrent coparsing, and parsed-semantic balancing. During fusion, S\textsuperscript{2}RM will first generate a constraint-weak yet distribution-aware language feature, then bundle features of each row and column from rotated features of one modality context to recurrently correlate relevant semantic contained in feature from other modality context, and finally resort to self-distilled weights to weigh on the contributions of different parsed semantics. Via coparsing, S\textsuperscript{2}RM transports information from the near and remote slice layers of generator context to the current slice layer of parsed context, capable of better modeling global relationship bidirectional and structured. Besides, we also propose a Cross-scale Abstract Semantic Guided Decoder (CASG) to emphasize the foreground of the referent, finally integrating different grained features at a comparatively low cost. Extensive experimental results on four current challenging datasets show that our proposed method performs favorably against other state-of-the-art algorithms.
- Abstract(参考訳): イメージセグメンテーション(RIS)の参照には、お互いをより理解するために、言語と外見の意味論が一貫して必要である。
特に厳しい状況下では、需要は急激になる。
既存の研究は、様々なトランス表現機構を利用して、メインRGBブランチに沿って前方言語セマンティクスを直接供給する傾向にあり、しかしながら、空間において弱い参照分布とチャネルに沿って汚染された非参照セマンティクスが生じる。
本稿では,高品質なクロスモーダリティ融合を実現するために,空間セマンティックリカレントマイニング(S\textsuperscript{2}RM)を提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
融合の間、S\textsuperscript{2}RMはまず制約弱で分散対応の言語機能を生成し、その後、あるモダリティコンテキストの回転する特徴から各行と列の特徴をバンドルし、他のモダリティコンテキストから特徴に含まれる関連する意味を関連付ける。
ペアリングによって、S\textsuperscript{2}RMは、ジェネレータの近層と遠層のスライス層からパースされたコンテキストの現在のスライス層に情報を転送し、グローバルな関係を双方向にモデル化し、構造化する。
また,参照者の前景を強調するために,CASG(Cross-scale Abstract Semantic Guided Decoder)を提案する。
現在の4つの挑戦的データセットに対する大規模な実験結果から,提案手法が他の最先端アルゴリズムに対して好適に動作することを示す。
関連論文リスト
- Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [9.109484087832058]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - BERM: Training the Balanced and Extractable Representation for Matching
to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。
センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文 参考訳(メタデータ) (2023-05-18T15:43:09Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Asymmetric Cross-Scale Alignment for Text-Based Person Search [15.618984100653348]
テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。
このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケールの機能を抽出し、その後、クロスモーダルアライメントを実行する必要がある。
マルチスケール表現を抽出し、非対称なクロススケールアライメント(ACSA)を行い、2つのモードを正確に整列するトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-11-26T08:34:35Z) - Regional Semantic Contrast and Aggregation for Weakly Supervised
Semantic Segmentation [25.231470587575238]
本稿では,意味的セグメンテーションを学習するための地域意味的コントラストとアグリゲーション(RCA)を提案する。
RCAは、訓練データに現れる多種多様なオブジェクトパターンを格納する地域記憶バンクを備えている。
RCAは、きめ細かいセマンティック理解の強い能力を獲得し、最終的には2つの人気のあるベンチマークで新しい最先端の結果を確立する。
論文 参考訳(メタデータ) (2022-03-17T23:29:03Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Multi-Scale Feature Aggregation by Cross-Scale Pixel-to-Region Relation
Operation for Semantic Segmentation [44.792859259093085]
本研究の目的は,隣接する高次特徴写像からの補的コンテキストを,クロススケールなピクセル・ツー・リージョン操作で集約することである。
マルチスケール特徴量を得るために,効率的な特徴ピラミッドネットワークを用いる。
実験の結果,RSPヘッドはセマンティックセグメンテーションとパノプティクスセグメンテーションの両方で高い効率で競争力を発揮することがわかった。
論文 参考訳(メタデータ) (2021-06-03T10:49:48Z) - Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。
基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。
提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文 参考訳(メタデータ) (2021-06-01T02:17:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。