論文の概要: SCAM! Transferring humans between images with Semantic Cross Attention
Modulation
- arxiv url: http://arxiv.org/abs/2210.04883v1
- Date: Mon, 10 Oct 2022 17:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:32:25.086342
- Title: SCAM! Transferring humans between images with Semantic Cross Attention
Modulation
- Title(参考訳): SCAM!
セマンティッククロスアテンション変調による画像間の人間移動
- Authors: Nicolas Dufour, David Picard, Vicky Kalogeiton
- Abstract要約: 画像の各意味領域にリッチで多様な情報をエンコードするSCAMを導入する。
分析の結果,提案アーキテクチャは各セマンティック領域における外観の多様性を符号化することに成功していることがわかった。
- 参考スコア(独自算出の注目度): 25.516002156684305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large body of recent work targets semantically conditioned image
generation. Most such methods focus on the narrower task of pose transfer and
ignore the more challenging task of subject transfer that consists in not only
transferring the pose but also the appearance and background. In this work, we
introduce SCAM (Semantic Cross Attention Modulation), a system that encodes
rich and diverse information in each semantic region of the image (including
foreground and background), thus achieving precise generation with emphasis on
fine details. This is enabled by the Semantic Attention Transformer Encoder
that extracts multiple latent vectors for each semantic region, and the
corresponding generator that exploits these multiple latents by using semantic
cross attention modulation. It is trained only using a reconstruction setup,
while subject transfer is performed at test time. Our analysis shows that our
proposed architecture is successful at encoding the diversity of appearance in
each semantic region. Extensive experiments on the iDesigner and CelebAMask-HD
datasets show that SCAM outperforms SEAN and SPADE; moreover, it sets the new
state of the art on subject transfer.
- Abstract(参考訳): 最近の作業対象は、意味的条件付き画像生成である。
このような方法のほとんどは、ポーズの移動の狭いタスクに焦点をあて、ポーズだけでなく、外観や背景も移すという、より困難な主題の移動のタスクを無視する。
本研究では,画像の各意味領域(前景と背景を含む)にリッチで多様な情報をエンコードするシステムであるscam(semantic cross attention modulation)を導入する。
これは、各セマンティクス領域に対して複数の潜在ベクトルを抽出するセマンティクスアテンショントランスフォーマーエンコーダと、セマンティクスクロスアテンション変調を用いてこれら複数の潜在ベクトルを利用する対応するジェネレータによって実現される。
サブジェクト転送はテスト時に行われるが、リコンストラクション設定のみを使用してトレーニングされる。
分析の結果,提案アーキテクチャは各意味領域における外観の多様性を符号化することに成功した。
idesignerとcelebamask-hdデータセットに関する広範囲な実験により、スカムはショーンとスペードよりも優れており、さらに被写体転送に関する新しい技術が設定されている。
関連論文リスト
- Trustworthy Image Semantic Communication with GenAI: Explainablity, Controllability, and Efficiency [59.15544887307901]
画像意味コミュニケーション(ISC)は,高効率な映像コンテンツ伝送を実現する可能性に注目されている。
既存のISCシステムは、解釈可能性、操作性、互換性の課題に直面している。
我々は、複数の下流推論タスクにGenerative Artificial Intelligence(GenAI)を利用する新しい信頼できるISCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-07T14:32:36Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Learning Content-enhanced Mask Transformer for Domain Generalized
Urban-Scene Segmentation [28.165600284392042]
ドメイン一般化都市シーンセマンティックセマンティックセグメンテーション (USSS) は,様々な都市シーンスタイルの汎用セマンティックセマンティックセグメンテーションを学習することを目的としている。
既存のアプローチは通常、都市シーンの内容を学ぶために畳み込みニューラルネットワーク(CNN)に依存している。
ドメイン一般化USSSのためのCMFormer(Content-enhanced Mask TransFormer)を提案する。
論文 参考訳(メタデータ) (2023-07-01T15:48:33Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily
Oriented Scene Text Recognition [26.571128345615108]
本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。
提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。
論文 参考訳(メタデータ) (2022-07-21T01:41:53Z) - The Devil is in the Frequency: Geminated Gestalt Autoencoder for
Self-Supervised Visual Pre-Training [13.087987450384036]
視覚前訓練のための新しいMasked Image Modeling (MIM) をGeminated Autoencoder (Ge$2-AE) と呼ぶ。
具体的には、画素と周波数空間の両方から画像内容を再構成するgeminated decoderをモデルに装備する。
論文 参考訳(メタデータ) (2022-04-18T09:22:55Z) - TransCAM: Transformer Attention-based CAM Refinement for Weakly
Supervised Semantic Segmentation [19.333543299407832]
弱教師付きセマンティックセグメンテーションのための Conformer ベースのソリューション TransCAM を提案する。
PASCAL VOC 2012の検証とテストセットにおいて,TransCAMは69.3%,69.6%の新たな最先端性能を実現している。
論文 参考訳(メタデータ) (2022-03-14T16:17:18Z) - Semantic decoupled representation learning for remote sensing image
change detection [17.548248093344576]
RS画像CDのセマンティックデカップリング表現学習を提案する。
我々は、セマンティックマスクを利用して、異なるセマンティック領域の表現をアンタングルする。
さらに、下流CDタスクにおける関心対象の認識に役立ち、異なる意味表現を区別するようモデルに強制する。
論文 参考訳(メタデータ) (2022-01-15T07:35:26Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。