論文の概要: Unsupervised Disentanglement of Pose, Appearance and Background from
Images and Videos
- arxiv url: http://arxiv.org/abs/2001.09518v1
- Date: Sun, 26 Jan 2020 20:59:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:35:15.932281
- Title: Unsupervised Disentanglement of Pose, Appearance and Background from
Images and Videos
- Title(参考訳): 画像・映像からのポーズ・容姿・背景の教師なし乱れ
- Authors: Aysegul Dundar, Kevin J. Shih, Animesh Garg, Robert Pottorf, Andrew
Tao, Bryan Catanzaro
- Abstract要約: 教師なしのランドマーク学習は、高価な入力キーポイントレベルのアノテーションを使わずに意味キーポイントのような表現を学習するタスクである。
一般的なアプローチは、イメージをポーズと外観データストリームに分解し、分解されたコンポーネントからイメージを再構成することである。
本研究は, 再建作業を異なる前景と背景の復元に分解する効果について検討する。
- 参考スコア(独自算出の注目度): 44.93648211794362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised landmark learning is the task of learning semantic keypoint-like
representations without the use of expensive input keypoint-level annotations.
A popular approach is to factorize an image into a pose and appearance data
stream, then to reconstruct the image from the factorized components. The pose
representation should capture a set of consistent and tightly localized
landmarks in order to facilitate reconstruction of the input image. Ultimately,
we wish for our learned landmarks to focus on the foreground object of
interest. However, the reconstruction task of the entire image forces the model
to allocate landmarks to model the background. This work explores the effects
of factorizing the reconstruction task into separate foreground and background
reconstructions, conditioning only the foreground reconstruction on the
unsupervised landmarks. Our experiments demonstrate that the proposed
factorization results in landmarks that are focused on the foreground object of
interest. Furthermore, the rendered background quality is also improved, as the
background rendering pipeline no longer requires the ill-suited landmarks to
model its pose and appearance. We demonstrate this improvement in the context
of the video-prediction task.
- Abstract(参考訳): 教師なしのランドマーク学習は、高価な入力キーポイントレベルのアノテーションを使わずに意味キーポイントのような表現を学習するタスクである。
一般的なアプローチは、イメージをポーズと外観データストリームに分解し、分解されたコンポーネントからイメージを再構成することである。
ポーズ表現は、入力画像の再構成を容易にするために、一貫した密集したランドマークの集合をキャプチャする必要がある。
最終的に私たちは、学習したランドマークが、前景の関心の対象に焦点を合わせることを望んでいます。
しかし、画像全体の再構築作業は、背景をモデル化するためにランドマークを割り当てるようにモデルを強制する。
本研究は, 再建作業を異なる前景と背景の復元に分解し, 未管理のランドマークに前景のみを調和させる効果について検討する。
提案する因子化は,前景の関心対象に着目したランドマークに結果をもたらすことを実証した。
さらに、背景レンダリングパイプラインは、ポーズや外観をモデル化するために不適切なランドマークを必要としないため、レンダリングされた背景品質も改善されている。
本稿では,この改善をビデオ予測タスクの文脈で示す。
関連論文リスト
- DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Painterly Image Harmonization via Adversarial Residual Learning [37.78751164466694]
画家的なイメージは 背景の絵のスタイルを 前景の物体に 転送することを目的としています
本研究では,前景特徴写像と背景特徴写像の間の領域ギャップを埋めるために,逆学習を用いる。
論文 参考訳(メタデータ) (2023-11-15T01:53:46Z) - A Fusion of Variational Distribution Priors and Saliency Map Replay for Continual 3D Reconstruction [1.2289361708127877]
単一画像からの3次元物体形状の予測に焦点をあてた研究課題である。
このタスクは、形状の可視部分と隠蔽部分の両方を予測するために、重要なデータ取得を必要とする。
本稿では,従来のクラスを新しいクラスで学習した後でも合理的に再構築できる変分優先を用いたモデルの設計を目標とする,連続的な学習に基づく3D再構成手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T06:48:55Z) - Revisiting Image Reconstruction for Semi-supervised Semantic
Segmentation [16.27277238968567]
画像再構成を補助課題として利用し、半教師付きセマンティックセグメンテーションフレームワークに組み込むという考え方を再考する。
驚くことに、このような半教師付き学習の古いアイデアは、最先端のセマンティックセグメンテーションアルゴリズムと競合する結果をもたらす。
論文 参考訳(メタデータ) (2023-03-17T06:31:06Z) - Take a Prior from Other Tasks for Severe Blur Removal [52.380201909782684]
知識蒸留に基づくクロスレベル特徴学習戦略
多レベルアグリゲーションとセマンティックアテンション変換によるセマンティック事前埋め込み層を効果的に統合する。
GoProやRealBlurのデータセットのような、自然な画像劣化ベンチマークと実世界の画像の実験は、我々の方法の有効性と能力を実証している。
論文 参考訳(メタデータ) (2023-02-14T08:30:51Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Unsupervised Learning of Landmarks based on Inter-Intra Subject
Consistencies [72.67344725725961]
本稿では,物体間ランドマーク成分を顔画像に組み込むことにより,画像ランドマーク発見のための教師なし学習手法を提案する。
これは、補助的な主題関連構造に基づいて、元の主題のランドマークを変換するオブジェクト間マッピングモジュールによって達成される。
変換された画像から元の被写体に戻るために、ランドマーク検出器は、対のオブジェクト内画像と対のオブジェクト間画像の両方に一貫した意味を含む空間的位置を学習せざるを得ない。
論文 参考訳(メタデータ) (2020-04-16T20:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。