論文の概要: TIPS: Text-Induced Pose Synthesis
- arxiv url: http://arxiv.org/abs/2207.11718v1
- Date: Sun, 24 Jul 2022 11:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:35:32.432125
- Title: TIPS: Text-Induced Pose Synthesis
- Title(参考訳): ヒント:テキストによるポーズ合成
- Authors: Prasun Roy, Subhankar Ghosh, Saumik Bhattacharya, Umapada Pal, Michael
Blumenstein
- Abstract要約: コンピュータビジョンにおいて、人間のポーズ合成と伝達は、以前は目に見えないポーズで人の確率的画像生成を扱う。
まず,現在のポーズ転送アルゴリズムの欠点を提示し,それらの問題に対処するための新しいテキストベースのポーズ転送手法を提案する。
提案手法は,実験において有意な質的,定量的な結果が得られることを示す。
- 参考スコア(独自算出の注目度): 24.317541784957285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computer vision, human pose synthesis and transfer deal with probabilistic
image generation of a person in a previously unseen pose from an already
available observation of that person. Though researchers have recently proposed
several methods to achieve this task, most of these techniques derive the
target pose directly from the desired target image on a specific dataset,
making the underlying process challenging to apply in real-world scenarios as
the generation of the target image is the actual aim. In this paper, we first
present the shortcomings of current pose transfer algorithms and then propose a
novel text-based pose transfer technique to address those issues. We divide the
problem into three independent stages: (a) text to pose representation, (b)
pose refinement, and (c) pose rendering. To the best of our knowledge, this is
one of the first attempts to develop a text-based pose transfer framework where
we also introduce a new dataset DF-PASS, by adding descriptive pose annotations
for the images of the DeepFashion dataset. The proposed method generates
promising results with significant qualitative and quantitative scores in our
experiments.
- Abstract(参考訳): コンピュータビジョンでは、人間のポーズ合成と転送は、既に利用可能な人物の観察から、以前に見抜かれたポーズで人物の確率的画像生成を扱う。
研究者は最近、この課題を達成するためのいくつかの手法を提案しているが、これらの手法のほとんどは、特定のデータセット上の所望のターゲット画像から直接ターゲットのポーズを導き、ターゲット画像の生成が実際の目的であるため、現実のシナリオに適用することは困難である。
本稿では,まず,現在のポーズ伝達アルゴリズムの欠点について述べるとともに,これらの問題に対処するための新しいテキストベースのポーズ転送手法を提案する。
問題を3つの独立した段階に分けます
(a)表現を代行するテキスト
(b)リファインメントのポーズ、及び
(c)ポーズレンダリング。
私たちの知る限りでは、deepfashionデータセットのイメージに記述的なポーズアノテーションを追加することで、新たなデータセットdf-passも導入する、テキストベースのポーズ転送フレームワークを開発する最初の試みのひとつです。
提案手法は,実験において有意な質的,定量的な結果をもたらす。
関連論文リスト
- Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection [16.42439177494448]
本研究では,空中視による人間検出のための合成データセットにおいて,人間のポーズを多様化するための枠組みを提案する。
提案手法では,ポーズ生成器を用いて新規ポーズのセットを構築し,既存の合成データセットの画像を変更して,新規ポーズを仮定する。
実験では、合成データがトレーニングにどのように使用されるか、あるいはデータサイズに関わらず、トレーニングでポーズの異なるデータセットを活用することにより、はるかに精度が向上することを示した。
論文 参考訳(メタデータ) (2024-05-24T21:08:27Z) - TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose
Estimation [55.94900327396771]
合成データから6次元オブジェクトポーズ推定のためのニューラルネットワークによるテクスチャ学習を提案する。
実画像からオブジェクトの現実的なテクスチャを予測することを学ぶ。
画素完全合成データからポーズ推定を学習する。
論文 参考訳(メタデータ) (2022-12-25T13:36:32Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - Learning Semantic Person Image Generation by Region-Adaptive
Normalization [81.52223606284443]
ポーズと外観の翻訳を扱う新しい2段階フレームワークを提案する。
第1段階では,対象意味解析マップを予測し,ポーズ転送の難しさを解消する。
第2段階では,領域適応正規化を組み込んだ新たな人物画像生成手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T06:51:37Z) - Spatial Content Alignment For Pose Transfer [13.018067816407923]
衣服のテクスチャーのコンテンツ一貫性と人間の特性の詳細を高めるための新しいフレームワークを提案します。
まず,前もってターゲットポーズにエッジ内容の転送を行うことにより,空間的不整合を緩和する。
第二に、フォトリアリスティックな人物画像を順調に合成できる新しいContent-Style DeBlkを紹介します。
論文 参考訳(メタデータ) (2021-03-31T06:10:29Z) - Progressive and Aligned Pose Attention Transfer for Person Image
Generation [59.87492938953545]
本稿では,ある人物のポーズを対象のポーズに移す,新たなポーズ移動のための生成的広告ネットワークを提案する。
Pose-Attentional Transfer Block (PATB) と Aligned Pose-Attentional Transfer Bloc (APATB) の2種類のブロックを使用します。
Market-1501およびDeepFashionデータセットにおけるモデルの有効性を定量的および定性測定を用いて検証する。
論文 参考訳(メタデータ) (2021-03-22T07:24:57Z) - Wish You Were Here: Context-Aware Human Generation [100.51309746913512]
本稿では,既存の画像にオブジェクト,特に人間を挿入する新しい手法を提案する。
本手法では, 現場の他の人物のポーズを考慮し, まず, 新たな人物のセマンティックマップを生成する。
第2のネットワークは、複数の外観成分の仕様に基づいて、新規人物とそのブレンディングマスクの画素を描画する。
第3のネットワークは、対象者の顔と一致するように生成された顔を洗練する。
論文 参考訳(メタデータ) (2020-05-21T14:09:14Z) - Sequential View Synthesis with Transformer [13.200139959163574]
学習した表現に基づいて、ターゲットビューを含む画像シーケンスを予測するシーケンシャルレンダリングデコーダを導入する。
我々は、様々な挑戦的なデータセットでモデルを評価し、モデルが一貫性のある予測を与えるだけでなく、微調整のための再トレーニングも必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-09T14:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。