論文の概要: Semi-Supervised Wide-Angle Portraits Correction by Multi-Scale
Transformer
- arxiv url: http://arxiv.org/abs/2109.08024v1
- Date: Tue, 14 Sep 2021 09:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 13:55:56.074478
- Title: Semi-Supervised Wide-Angle Portraits Correction by Multi-Scale
Transformer
- Title(参考訳): マルチスケール変圧器によるセミスーパービジョン広角補正
- Authors: Fushun Zhu, Shan Zhao, Peng Wang, Hao Wang, Hua Yan, Shuaicheng Liu
- Abstract要約: 広角画像補正のための半教師付きネットワークを提案する。
我々のネットワークはMulti-Scale Swin-Unet(MS-Unet)と呼ばれ、MSTB(Multi-scale Swin-Unet)上に構築されている。
- 参考スコア(独自算出の注目度): 17.455782652441187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a semi-supervised network for wide-angle portraits correction.
Wide-angle images often suffer from skew and distortion affected by perspective
distortion, especially noticeable at the face regions. Previous deep learning
based approaches require the ground-truth correction flow maps for the training
guidance. However, such labels are expensive, which can only be obtained
manually. In this work, we propose a semi-supervised scheme, which can consume
unlabeled data in addition to the labeled data for improvements. Specifically,
our semi-supervised scheme takes the advantages of the consistency mechanism,
with several novel components such as direction and range consistency (DRC) and
regression consistency (RC). Furthermore, our network, named as Multi-Scale
Swin-Unet (MS-Unet), is built upon the multi-scale swin transformer block
(MSTB), which can learn both local-scale and long-range semantic information
effectively. In addition, we introduce a high-quality unlabeled dataset with
rich scenarios for the training. Extensive experiments demonstrate that the
proposed method is superior over the state-of-the-art methods and other
representative baselines.
- Abstract(参考訳): 広角画像補正のための半教師付きネットワークを提案する。
広角画像は、特に顔領域で目立つ遠近法歪みの影響を受け、歪や歪みに苦しむことが多い。
事前の深層学習に基づくアプローチでは、トレーニング指導のための地平線補正フローマップが必要である。
しかし、こうしたラベルは高価であり、手作業でしか入手できない。
本研究では,ラベル付きデータに加えてラベル付きデータも活用可能な半教師付きスキームを提案する。
具体的には、方向と範囲の整合性(DRC)や回帰整合性(RC)といった、新しいコンポーネントによって、整合性メカニズムの利点を生かしている。
さらに,MS-Unet(Multi-Scale Swin-Unet)と呼ばれるネットワークは,MSTB(Multi-scale Swin-Unet)上に構築されており,ローカルスケールと長距離セマンティック情報を効果的に学習することができる。
さらに、トレーニングに豊富なシナリオを持つ高品質なラベルなしデータセットも導入する。
実験の結果,提案手法は最先端の手法や代表的ベースラインよりも優れていることがわかった。
関連論文リスト
- Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Conditioning Generative Latent Optimization for Sparse-View CT Image Reconstruction [0.5497663232622965]
生成潜在最適化フレームワーク(cGLO)に対する教師なし条件付きアプローチを提案する。
この手法は、複数のトレーニングデータセットサイズと様々な視角を用いて、フルドーズスパース・ビューCTでテストされる。
論文 参考訳(メタデータ) (2023-07-31T13:47:33Z) - Evaluating the Label Efficiency of Contrastive Self-Supervised Learning
for Multi-Resolution Satellite Imagery [0.0]
遠隔センシング領域における自己教師付き学習は、容易に利用可能なラベル付きデータを活用するために応用されている。
本稿では,ラベル効率のレンズを用いた自己教師型視覚表現学習について検討する。
論文 参考訳(メタデータ) (2022-10-13T06:54:13Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Dispensed Transformer Network for Unsupervised Domain Adaptation [21.256375606219073]
本稿では,新しい非教師付き領域適応 (UDA) 方式であるディスペンデントトランスフォーマーネットワーク (DTNet) について述べる。
提案するネットワークは,いくつかの最先端技術と比較して,最高の性能を実現している。
論文 参考訳(メタデータ) (2021-10-28T08:27:44Z) - Semi-weakly Supervised Contrastive Representation Learning for Retinal
Fundus Images [0.2538209532048867]
本稿では,半弱化アノテーションを用いた表現学習のための,半弱化教師付きコントラスト学習フレームワークを提案する。
SWCLの移動学習性能を7つの公立網膜眼底データセットで実証的に検証した。
論文 参考訳(メタデータ) (2021-08-04T15:50:09Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - Exploiting Invariance in Training Deep Neural Networks [4.169130102668252]
動物視覚システムの2つの基本的なメカニズムに触発され、ディープニューラルネットワークのトレーニングに不変性を与える特徴変換技術を紹介します。
結果として得られるアルゴリズムはパラメータチューニングを少なくし、初期学習率1.0でうまくトレーニングし、異なるタスクに簡単に一般化する。
ImageNet、MS COCO、Cityscapesデータセットでテストされた当社の提案手法は、トレーニングにより少ないイテレーションを必要とし、すべてのベースラインを大きなマージンで上回り、小規模および大規模のバッチサイズのトレーニングをシームレスに行い、画像分類、オブジェクト検出、セマンティックセグメンテーションの異なるコンピュータビジョンタスクに適用します。
論文 参考訳(メタデータ) (2021-03-30T19:18:31Z) - On Robustness and Transferability of Convolutional Neural Networks [147.71743081671508]
現代の深層畳み込みネットワーク(CNN)は、分散シフトの下で一般化しないとしてしばしば批判される。
現代画像分類CNNにおける分布外と転送性能の相互作用を初めて検討した。
トレーニングセットとモデルサイズを増大させることで、分散シフトロバスト性が著しく向上することがわかった。
論文 参考訳(メタデータ) (2020-07-16T18:39:04Z) - X-ModalNet: A Semi-Supervised Deep Cross-Modal Network for
Classification of Remote Sensing Data [69.37597254841052]
我々はX-ModalNetと呼ばれる新しいクロスモーダルディープラーニングフレームワークを提案する。
X-ModalNetは、ネットワークの上部にある高レベルな特徴によって構築されたアップダスタブルグラフ上にラベルを伝搬するため、うまく一般化する。
我々は2つのマルチモーダルリモートセンシングデータセット(HSI-MSIとHSI-SAR)上でX-ModalNetを評価し、いくつかの最先端手法と比較して大幅に改善した。
論文 参考訳(メタデータ) (2020-06-24T15:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。