論文の概要: Multi-View Image-to-Image Translation Supervised by 3D Pose
- arxiv url: http://arxiv.org/abs/2104.05779v1
- Date: Mon, 12 Apr 2021 19:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:31:26.284317
- Title: Multi-View Image-to-Image Translation Supervised by 3D Pose
- Title(参考訳): 3D Pose による多視点画像変換
- Authors: Idit Diamant, Oranit Dror, Hai Victor Habi, Arnon Netzer
- Abstract要約: 目的は、すべてのビューでポーズ一貫性を備えたフォトリアルなマルチビューイメージを合成することです。
提案するエンドツーエンドフレームワークは,複数の未ペア画像-画像間翻訳モデルの連成学習に基づいている。
- 参考スコア(独自算出の注目度): 6.203396693336105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the task of multi-view image-to-image translation for person image
generation. The goal is to synthesize photo-realistic multi-view images with
pose-consistency across all views. Our proposed end-to-end framework is based
on a joint learning of multiple unpaired image-to-image translation models, one
per camera viewpoint. The joint learning is imposed by constraints on the
shared 3D human pose in order to encourage the 2D pose projections in all views
to be consistent. Experimental results on the CMU-Panoptic dataset demonstrate
the effectiveness of the suggested framework in generating photo-realistic
images of persons with new poses that are more consistent across all views in
comparison to a standard Image-to-Image baseline. The code is available at:
https://github.com/sony-si/MultiView-Img2Img
- Abstract(参考訳): 人物画像生成のための多視点画像変換の課題に対処する。
目標は、すべてのビューに対してポーズ一貫性のある写真リアリスティックなマルチビュー画像を合成することである。
提案するエンドツーエンドフレームワークは,カメラ視点毎の複数画像間翻訳モデルの連立学習に基づいている。
共同学習は、共有された3次元人間のポーズに対する制約によって課され、すべての視点における2次元のポーズプロジェクションの一貫性を奨励する。
CMU-Panopticデータセットの実験結果は、標準のイメージ・ツー・イメージベースラインと比較して、すべてのビューに一貫性のある新しいポーズを持つ人の写真リアルな画像を生成する上で、提案するフレームワークの有効性を示す。
コードは https://github.com/sony-si/MultiView-Img2Img
関連論文リスト
- PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation [38.958695275774616]
検索方式で訓練された新しいトランスフォーマーモデルを導入し、上記のモダリティの組み合わせを任意の入力として利用できるようにする。
本稿では,(1)オプションのテキストキューによる画像からのSMPL回帰と(2)きめ細かな命令生成のタスクに対する,そのような埋め込みされたポーズ表現の可能性を示す。
論文 参考訳(メタデータ) (2024-09-10T14:09:39Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。