Fugu-MT 論文翻訳(概要): Spatial Semantic Recurrent Mining for Referring Image Segmentation

論文の概要: Spatial Semantic Recurrent Mining for Referring Image Segmentation

arxiv url: http://arxiv.org/abs/2405.09006v1
Date: Wed, 15 May 2024 00:17:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 14:45:30.667158
Title: Spatial Semantic Recurrent Mining for Referring Image Segmentation
Title（参考訳）: 画像セグメント参照のための空間的セマンティックリカレントマイニング
Authors: Jiaxing Yang, Lihe Zhang, Jiayu Sun, Huchuan Lu,
Abstract要約: 高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。提案手法は他の最先端アルゴリズムに対して好適に機能する。
参考スコア（独自算出の注目度）: 63.34997546393106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Referring Image Segmentation (RIS) consistently requires language and appearance semantics to more understand each other. The need becomes acute especially under hard situations. To achieve, existing works tend to resort to various trans-representing mechanisms to directly feed forward language semantic along main RGB branch, which however will result in referent distribution weakly-mined in space and non-referent semantic contaminated along channel. In this paper, we propose Spatial Semantic Recurrent Mining (S\textsuperscript{2}RM) to achieve high-quality cross-modality fusion. It follows a working strategy of trilogy: distributing language feature, spatial semantic recurrent coparsing, and parsed-semantic balancing. During fusion, S\textsuperscript{2}RM will first generate a constraint-weak yet distribution-aware language feature, then bundle features of each row and column from rotated features of one modality context to recurrently correlate relevant semantic contained in feature from other modality context, and finally resort to self-distilled weights to weigh on the contributions of different parsed semantics. Via coparsing, S\textsuperscript{2}RM transports information from the near and remote slice layers of generator context to the current slice layer of parsed context, capable of better modeling global relationship bidirectional and structured. Besides, we also propose a Cross-scale Abstract Semantic Guided Decoder (CASG) to emphasize the foreground of the referent, finally integrating different grained features at a comparatively low cost. Extensive experimental results on four current challenging datasets show that our proposed method performs favorably against other state-of-the-art algorithms.
Abstract（参考訳）: イメージセグメンテーション(RIS)の参照には、お互いをより理解するために、言語と外見の意味論が一貫して必要である。特に厳しい状況下では、需要は急激になる。既存の研究は、様々なトランス表現機構を利用して、メインRGBブランチに沿って前方言語セマンティクスを直接供給する傾向にあり、しかしながら、空間において弱い参照分布とチャネルに沿って汚染された非参照セマンティクスが生じる。本稿では,高品質なクロスモーダリティ融合を実現するために,空間セマンティックリカレントマイニング(S\textsuperscript{2}RM)を提案する。これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。融合の間、S\textsuperscript{2}RMはまず制約弱で分散対応の言語機能を生成し、その後、あるモダリティコンテキストの回転する特徴から各行と列の特徴をバンドルし、他のモダリティコンテキストから特徴に含まれる関連する意味を関連付ける。ペアリングによって、S\textsuperscript{2}RMは、ジェネレータの近層と遠層のスライス層からパースされたコンテキストの現在のスライス層に情報を転送し、グローバルな関係を双方向にモデル化し、構造化する。また,参照者の前景を強調するために,CASG(Cross-scale Abstract Semantic Guided Decoder)を提案する。現在の4つの挑戦的データセットに対する大規模な実験結果から,提案手法が他の最先端アルゴリズムに対して好適に動作することを示す。

関連論文リスト

RSRefSeg 2: Decoupling Referring Remote Sensing Image Segmentation with Foundation Models [25.265113510539546]
Referring Remote Sensing Imageは、リモートセンシングシーン分析のための柔軟できめ細かいフレームワークを提供する。現在のアプローチでは、デュアルモーダル符号化、クロスモーダル相互作用、ピクセルデコーディングを含む3段階のパイプラインを使用している。本稿では,従来のワークフローを協調的な2段階のフレームワークに再構成する疎結合パラダイム RSRefSeg 2 を提案する。
論文参考訳（メタデータ） (2025-07-08T17:59:58Z)
SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework with MLLMs [70.79124435220695]
セマンティック強化型Cross-mOdal Retrievalフレームワーク(SemCORE)を提案する。まず,自然言語の理解と生成に最適化された生成モデルとターゲット識別子を効果的に整合させる構造化自然言語識別器(SID)を構築した。次に、粒度の細かいターゲット識別を可能にするジェネレーティブ・セマンティック・検証(GSV)戦略を導入する。
論文参考訳（メタデータ） (2025-04-17T17:59:27Z)
Efficient Redundancy Reduction for Open-Vocabulary Semantic Segmentation [36.46163240168576]
Open-vocabulary semantic segmentation (OVSS)は、任意のテキスト記述によって定義された特定のクラスに画像内の各ピクセルを割り当てることを目的としたオープンワールドタスクである。大規模視覚言語モデルの最近の進歩は、そのオープン語彙理解能力を示している。本研究では, 冗長性を効果的に低減し, 精度と効率のバランスをとる新しいフレームワークであるERR-Segを紹介する。
論文参考訳（メタデータ） (2025-01-29T13:24:53Z)
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints [15.541287957548771]
本稿では,粗大な一貫性制約を持つビジュアルグラウンドアーキテクチャを提案する。暗黙的かつ明示的なモデリングアプローチを2段階のフレームワークに統合する。最先端のREC法とRIS法を実質的なマージンで大幅に上回っている。
論文参考訳（メタデータ） (2025-01-12T04:30:13Z)
Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [9.109484087832058]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。 RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文参考訳（メタデータ） (2024-10-11T08:28:04Z)
BERM: Training the Balanced and Extractable Representation for Matching to Improve Generalization Ability of Dense Retrieval [54.66399120084227]
本稿では,BERMと呼ばれるマッチング信号の取得により,高密度検索の一般化を改善する手法を提案する。センス検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第1段階の検索プロセスにおいて有望であることが示されている。
論文参考訳（メタデータ） (2023-05-18T15:43:09Z)
Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文参考訳（メタデータ） (2023-05-17T14:30:11Z)
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。比較すると,本手法はより汎用的で有効である。
論文参考訳（メタデータ） (2023-03-11T08:42:40Z)
Asymmetric Cross-Scale Alignment for Text-Based Person Search [15.618984100653348]
テキストに基づく人物探索 (TBPS) は知的監視において重要な意味を持つ歩行者画像の検索を目的としている。このタスクを実装するには、画像ドメインとテキストドメインの両方からマルチスケールの機能を抽出し、その後、クロスモーダルアライメントを実行する必要がある。マルチスケール表現を抽出し、非対称なクロススケールアライメント(ACSA)を行い、2つのモードを正確に整列するトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2022-11-26T08:34:35Z)
Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation [25.231470587575238]
本稿では,意味的セグメンテーションを学習するための地域意味的コントラストとアグリゲーション(RCA)を提案する。 RCAは、訓練データに現れる多種多様なオブジェクトパターンを格納する地域記憶バンクを備えている。 RCAは、きめ細かいセマンティック理解の強い能力を獲得し、最終的には2つの人気のあるベンチマークで新しい最先端の結果を確立する。
論文参考訳（メタデータ） (2022-03-17T23:29:03Z)
Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文参考訳（メタデータ） (2021-10-04T03:59:15Z)
Multi-Scale Feature Aggregation by Cross-Scale Pixel-to-Region Relation Operation for Semantic Segmentation [44.792859259093085]
本研究の目的は,隣接する高次特徴写像からの補的コンテキストを,クロススケールなピクセル・ツー・リージョン操作で集約することである。マルチスケール特徴量を得るために,効率的な特徴ピラミッドネットワークを用いる。実験の結果,RSPヘッドはセマンティックセグメンテーションとパノプティクスセグメンテーションの両方で高い効率で競争力を発揮することがわかった。
論文参考訳（メタデータ） (2021-06-03T10:49:48Z)
Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文参考訳（メタデータ） (2021-06-01T02:17:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。