論文の概要: CSHNet: A Novel Information Asymmetric Image Translation Method
- arxiv url: http://arxiv.org/abs/2501.10197v1
- Date: Fri, 17 Jan 2025 13:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:59:33.591842
- Title: CSHNet: A Novel Information Asymmetric Image Translation Method
- Title(参考訳): CSHNet:新しい情報非対称画像変換法
- Authors: Xi Yang, Haoyuan Shi, Zihan Wang, Nannan Wang, Xinbo Gao,
- Abstract要約: Swin Embedded CNN (SEC) と CNN Embedded Swin (CES) の2つの主要なモジュールを組み合わせた CNN-Swin Hybrid Network (CSHNet) を提案する。
CSHNetは、シーンレベルのデータセットとインスタンスレベルのデータセットで、視覚的品質とパフォーマンスのメトリクスの両方において、既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 57.22010952287759
- License:
- Abstract: Despite advancements in cross-domain image translation, challenges persist in asymmetric tasks such as SAR-to-Optical and Sketch-to-Instance conversions, which involve transforming data from a less detailed domain into one with richer content. Traditional CNN-based methods are effective at capturing fine details but struggle with global structure, leading to unwanted merging of image regions. To address this, we propose the CNN-Swin Hybrid Network (CSHNet), which combines two key modules: Swin Embedded CNN (SEC) and CNN Embedded Swin (CES), forming the SEC-CES-Bottleneck (SCB). SEC leverages CNN's detailed feature extraction while integrating the Swin Transformer's structural bias. CES, in turn, preserves the Swin Transformer's global integrity, compensating for CNN's lack of focus on structure. Additionally, CSHNet includes two components designed to enhance cross-domain information retention: the Interactive Guided Connection (IGC), which enables dynamic information exchange between SEC and CES, and Adaptive Edge Perception Loss (AEPL), which maintains structural boundaries during translation. Experimental results show that CSHNet outperforms existing methods in both visual quality and performance metrics across scene-level and instance-level datasets. Our code is available at: https://github.com/XduShi/CSHNet.
- Abstract(参考訳): クロスドメイン画像翻訳の進歩にもかかわらず、SAR-to-OpticalやSketch-to-Instance変換のような非対称なタスクには、より詳細でないドメインからよりリッチなコンテンツへの変換を含む課題が続いている。
従来のCNNベースの手法は細部を捉えるのに有効だが、グローバルな構造に苦しむため、画像領域の不要なマージにつながる。
そこで我々は,Swin Embedded CNN (SEC) とCNN Embedded Swin (CES) の2つの主要なモジュールを組み合わせた CNN-Swin Hybrid Network (CSHNet) を提案し,SEC-CES-Bottleneck (SCB) を形成する。
SECは、Swin Transformerの構造バイアスを統合しながら、CNNの詳細な機能抽出を活用している。
CESはSwin Transformerのグローバルな完全性を維持し、CNNが構造に重点を置いていないことを補っている。
さらに、CSHNetには、SECとCESの間の動的情報交換を可能にするInteractive Guided Connection (IGC)と、翻訳中に構造的境界を維持するAdaptive Edge Perception Loss (AEPL)の2つのコンポーネントが含まれている。
実験の結果、CSHNetはシーンレベルのデータセットとインスタンスレベルのデータセットで、視覚的品質とパフォーマンスの指標の両方において、既存のメソッドよりも優れています。
私たちのコードは、https://github.com/XduShi/CSHNet.comで利用可能です。
関連論文リスト
- Learning CNN on ViT: A Hybrid Model to Explicitly Class-specific Boundaries for Domain Adaptation [13.753795233064695]
ほとんどのドメイン適応(DA)法は、畳み込みニューラルネットワーク(CNN)または視覚変換器(ViT)に基づいている。
ECB(Explicitly Class-specific boundaries)と呼ばれる,ViTとCNNの両方をフル活用するためのハイブリッド手法を設計する。
ECBは独自の強みを組み合わせるために、ViTでCNNを学びます。
論文 参考訳(メタデータ) (2024-03-27T08:52:44Z) - ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - SCTNet: Single-Branch CNN with Transformer Semantic Information for
Real-Time Segmentation [46.068509764538085]
SCTNetは、リアルタイムセグメンテーションのためのトランスフォーマーセマンティック情報を備えた単一ブランチCNNである。
SCTNetは、軽量な単一ブランチCNNの高効率を維持しながら、推論不要なセマンティックブランチのリッチなセマンティック表現を楽しみます。
本研究では,Cityscapes,ADE20K,COCO-Stuff-10Kについて広範な実験を行い,本手法が新しい最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-12-28T15:33:16Z) - SwinV2DNet: Pyramid and Self-Supervision Compounded Feature Learning for
Remote Sensing Images Change Detection [12.727650696327878]
本稿では,変換器とCNNの利点を継承するために,エンドツーエンドの複合ネットワークSwinV2DNetを提案する。
これは、密に接続されたSwin V2バックボーンを通じて、変更関係の機能をキャプチャする。
CNNブランチを通じて、低レベルの事前変更と後変更の機能を提供する。
論文 参考訳(メタデータ) (2023-08-22T03:31:52Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical
image segmentation [0.0]
本稿では,SegTransVAEという新しいネットワークを提案する。
SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチでトランスフォーマーを利用する。
最近導入されたデータセットの評価によると、SegTransVAEはDice Scoreと95%$-Haudorff Distanceで過去の手法より優れている。
論文 参考訳(メタデータ) (2022-01-21T08:02:55Z) - Swin Transformer coupling CNNs Makes Strong Contextual Encoders for VHR
Image Road Extraction [11.308473487002782]
本稿では,ResNetとSwinTransformerを組み合わせた2分岐ネットワークブロックConSwinを提案する。
提案手法は,マサチューセッツおよびCHN6-CUGデータセットの精度,IOU,F1インジケータにおいて,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-01-10T06:05:12Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - Dual-Level Collaborative Transformer for Image Captioning [126.59298716978577]
2つの機能の補完的な利点を実現するために、新しいデュアルレベルコラボレーショントランス(DLCT)ネットワークを紹介します。
さらに,これらの2つの特徴の直接融合によって生じる意味的雑音に対処するために,局所性制約付きクロスアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2021-01-16T15:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。