論文の概要: Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network
- arxiv url: http://arxiv.org/abs/2508.01331v1
- Date: Sat, 02 Aug 2025 11:57:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.82722
- Title: Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network
- Title(参考訳): クロスビューセマンティックインタラクションネットワークによるリモートセンシング画像セグメンテーションの参照
- Authors: Jiaxing Yang, Lihe Zhang, Huchuan Lu,
- Abstract要約: 本稿では,これらの制約を解決するために,並列で統一されたセグメンテーション・フレームワークであるクロスビューセマンティック・インタラクション・ネットワーク(CSINet)を提案する。
関心の対象を観察する際の人間の行動によって動機づけられたネットワークは、遠隔および近距離からの視覚的手がかりを編成し、相乗的予測を行う。
すべてのエンコーディングステージでは、Cross-View Window-attention Module(CVWin)を使用して、グローバルおよびローカルセマンティクスをクローズビューおよびリモートビューブランチ機能に補完する。
- 参考スコア(独自算出の注目度): 65.01521002836611
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Referring Remote Sensing Image Segmentation (RRSIS) has aroused wide attention. To handle drastic scale variation of remote targets, existing methods only use the full image as input and nest the saliency-preferring techniques of cross-scale information interaction into traditional single-view structure. Although effective for visually salient targets, they still struggle in handling tiny, ambiguous ones in lots of real scenarios. In this work, we instead propose a paralleled yet unified segmentation framework Cross-view Semantics Interaction Network (CSINet) to solve the limitations. Motivated by human behavior in observing targets of interest, the network orchestrates visual cues from remote and close distances to conduct synergistic prediction. In its every encoding stage, a Cross-View Window-attention module (CVWin) is utilized to supplement global and local semantics into close-view and remote-view branch features, finally promoting the unified representation of feature in every encoding stage. In addition, we develop a Collaboratively Dilated Attention enhanced Decoder (CDAD) to mine the orientation property of target and meanwhile integrate cross-view multiscale features. The proposed network seamlessly enhances the exploitation of global and local semantics, achieving significant improvements over others while maintaining satisfactory speed.
- Abstract(参考訳): 近年,Referring Remote Sensing Image Segmentation (RRSIS) が注目されている。
リモートターゲットの劇的なスケール変化に対処するため、既存の手法では、従来の単一ビュー構造へのクロススケール情報インタラクションの正当性優先手法を入力とネストとしてフルイメージのみを使用する。
視覚的に健全なターゲットには有効だが、多くの現実シナリオにおいて、小さな曖昧なターゲットを扱うのに依然として苦労している。
本研究では,その制約を解決するために,並列で統一されたセグメンテーション・フレームワークであるクロスビューセマンティック・インタラクション・ネットワーク(CSINet)を提案する。
関心の対象を観察する際の人間の行動によって動機づけられたネットワークは、遠隔および近距離からの視覚的手がかりを編成し、相乗的予測を行う。
各エンコーディング段階では、Cross-View Window-attention Module (CVWin) を使用して、グローバルおよびローカルセマンティクスをクローズビューおよびリモートビューブランチ機能に補完し、最終的にエンコーディングステージ毎に機能の統一表現を促進する。
さらに,目標の配向特性をマイニングし,またクロスビューなマルチスケール機能を統合するための協調拡張デコーダ (CDAD) を開発した。
提案するネットワークは,グローバルなセマンティクスとローカルなセマンティクスの活用をシームレスに促進し,良好な速度を維持しつつ,他よりも大幅な改善を実現している。
関連論文リスト
- Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - EraW-Net: Enhance-Refine-Align W-Net for Scene-Associated Driver Attention Estimation [17.0226030258296]
2つの視野にわたる運転シーンにドライバーの注意を関連付けることは、クロスドメインな認識の問題である。
従来の手法は、通常、単一の視点に焦点を当てたり、推定された視線を通してシーンに注意を向ける。
エンド・ツー・エンドのシーン関連運転注意度推定手法であるEraWNetを提案する。
論文 参考訳(メタデータ) (2024-08-16T07:12:47Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - SCTransNet: Spatial-channel Cross Transformer Network for Infrared Small Target Detection [46.049401912285134]
赤外線小ターゲット検出(IRSTD)は近年,U字型ニューラルモデルから大きな恩恵を受けている。
既存のテクニックは、ターゲットが背景と高い類似性を持つ場合に苦労する。
本稿では,空間チャネルクロストランスネットワーク(SCTransNet)を提案する。
論文 参考訳(メタデータ) (2024-01-28T06:41:15Z) - Self-Correlation and Cross-Correlation Learning for Few-Shot Remote
Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。
本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。
本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文 参考訳(メタデータ) (2023-09-11T21:53:34Z) - EAA-Net: Rethinking the Autoencoder Architecture with Intra-class
Features for Medical Image Segmentation [4.777011444412729]
We propose a light-weight end-to-end segmentation framework based on multi-task learning, called Edge Attention autoencoder Network (EAA-Net)。
提案手法は,クラス間特徴の抽出にセグメンテーションネットワークを利用するだけでなく,フォアグラウンド内でのクラス内特徴の抽出にも再構成ネットワークを適用する。
実験結果から,医用画像分割作業において,本手法が良好に機能することが確認された。
論文 参考訳(メタデータ) (2022-08-19T07:42:55Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Visual Concept Reasoning Networks [93.99840807973546]
分割変換マージ戦略は、視覚認識タスクのための畳み込みニューラルネットワークのアーキテクチャ制約として広く使用されている。
我々は、この戦略を利用して、高レベルの視覚概念間の推論を可能にするために、Visual Concept Reasoning Networks (VCRNet) と組み合わせることを提案する。
提案するモデルであるVCRNetは、パラメータ数を1%以下にすることで、一貫して性能を向上する。
論文 参考訳(メタデータ) (2020-08-26T20:02:40Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。