論文の概要: Multi-scale Attention Guided Pose Transfer
- arxiv url: http://arxiv.org/abs/2202.06777v1
- Date: Mon, 14 Feb 2022 14:58:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 20:42:02.964342
- Title: Multi-scale Attention Guided Pose Transfer
- Title(参考訳): マルチスケール注意誘導ポーズ伝達
- Authors: Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh and Umapada Pal
- Abstract要約: ポース転送(英: Pose transfer)とは、その人物の別のイメージから、前例のない小説のポーズを持つ人物の確率的イメージ生成を指す。
エンコーダとデコーダの解像度レベル毎にアテンションリンクを導入することで、ポーズ転送のための改良されたネットワークアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 18.79337509555511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose transfer refers to the probabilistic image generation of a person with a
previously unseen novel pose from another image of that person having a
different pose. Due to potential academic and commercial applications, this
problem is extensively studied in recent years. Among the various approaches to
the problem, attention guided progressive generation is shown to produce
state-of-the-art results in most cases. In this paper, we present an improved
network architecture for pose transfer by introducing attention links at every
resolution level of the encoder and decoder. By utilizing such dense
multi-scale attention guided approach, we are able to achieve significant
improvement over the existing methods both visually and analytically. We
conclude our findings with extensive qualitative and quantitative comparisons
against several existing methods on the DeepFashion dataset.
- Abstract(参考訳): ポーズ転送(Pose transfer)とは、前例のないポーズを持つ人物の確率的イメージ生成を、別のポーズを持つ人物の別のイメージから意味する。
学術的、商業的な応用の可能性から、この問題は近年広く研究されている。
この問題に対する様々なアプローチの中で,注意誘導型プログレッシブジェネレーションは,ほとんどの場合,最先端の成果を生み出すことが示されている。
本稿では,エンコーダとデコーダの解像度レベルごとに注意リンクを導入することにより,ポーズ転送のためのネットワークアーキテクチャの改善を提案する。
このような密集した多スケール注意誘導手法を利用することで,既存の手法を視覚的に,分析的に大きく改善することができる。
本稿では,DeepFashionデータセット上の既存手法と比較して,定性的かつ定量的な比較を行った。
関連論文リスト
- Enhanced Multi-Scale Cross-Attention for Person Image Generation [140.90068397518655]
課題のある人物画像生成タスクに対して,新たにGAN(cross-attention-based generative adversarial network)を提案する。
クロスアテンション(Cross-attention)は、異なるモードの2つの特徴写像間で注意/相関行列を計算する、新しく直感的なマルチモーダル融合法である。
異なる段階における外観・形状特徴を効果的に融合させるために, 密結合型コアテンションモジュールを新たに導入する。
論文 参考訳(メタデータ) (2025-01-15T16:08:25Z) - MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training [62.843316348659165]
ディープラーニングに基づく画像マッチングアルゴリズムは、人間を劇的に上回り、大量の対応を素早く正確に見つける。
本稿では, 画像間の基本構造を認識し, 一致させるためのモデル学習のために, 合成モード間学習信号を利用する大規模事前学習フレームワークを提案する。
我々の重要な発見は、我々のフレームワークで訓練されたマッチングモデルが、目に見えない8つのクロスモダリティ登録タスクにまたがる顕著な一般化性を達成することである。
論文 参考訳(メタデータ) (2025-01-13T18:37:36Z) - Geometry-guided Cross-view Diffusion for One-to-many Cross-view Image Synthesis [48.945931374180795]
本稿では,対応する衛星画像から可視な地上画像を生成することを目的とした,クロスビュー合成のための新しいアプローチを提案する。
これらの課題を衛星間(Sat2Grd)と地上間(Grd2Sat)合成と呼ぶ。
論文 参考訳(メタデータ) (2024-12-04T13:47:51Z) - Multi-Human Mesh Recovery with Transformers [5.420974192779563]
本稿では,マルチスケール機能の導入,集中型注意機構,相対的共同管理という3つの重要な設計選択を特徴とする,合理化トランスフォーマーに基づく設計モデルを提案する。
提案モデルでは、複数の個人を含む様々なベンチマークにおいて、最先端の領域ベースおよび全体像ベースの手法を超越した、大幅な性能向上を示す。
論文 参考訳(メタデータ) (2024-02-26T18:28:05Z) - Privacy-Preserving In-Bed Pose Monitoring: A Fusion and Reconstruction
Study [9.474452908573111]
ベッド内ポーズ推定における複数の非視覚的・プライバシー保護的モダリティの画像の有効利用について検討する。
まず,様々な画像モダリティからの情報を効果的に融合し,より優れたポーズ推定を行う。
次に,可視画像が利用できない場合のベッド内ポーズ推定を行うフレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-22T07:24:21Z) - Pose Guided Image Generation from Misaligned Sources via Residual Flow
Based Correction [31.39424991391106]
そこで本稿では,ビューアングルやポーズ,表情など,ソース間の多種多様なバリエーションを統一的な枠組みでモデル化する手法を提案する。
我々は、人体、顔、都市シーン、および3Dオブジェクトを含むさまざまなデータに対するアプローチを検証する。
論文 参考訳(メタデータ) (2022-02-02T01:30:15Z) - Enhancing Photorealism Enhancement [83.88433283714461]
本稿では,畳み込みネットワークを用いた合成画像のリアリズム向上手法を提案する。
一般的に使用されるデータセットのシーンレイアウトの分布を分析し、重要な方法で異なることを見つけます。
近年のイメージ・ツー・イメージ翻訳法と比較して,安定性とリアリズムの大幅な向上が報告されている。
論文 参考訳(メタデータ) (2021-05-10T19:00:49Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。