論文の概要: UMFuse: Unified Multi View Fusion for Human Editing applications
- arxiv url: http://arxiv.org/abs/2211.10157v1
- Date: Thu, 17 Nov 2022 05:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:09:01.830094
- Title: UMFuse: Unified Multi View Fusion for Human Editing applications
- Title(参考訳): UMFuse:人間編集アプリケーションのための統合マルチビューフュージョン
- Authors: Rishabh Jain, Mayur Hemani, Duygu Ceylan, Krishna Kumar Singh, Jingwan
Lu, Mausooom Sarkar, Balaji Krishnamurthy
- Abstract要約: 我々は、画像からポーズキーポイントとテクスチャを抽出し、画素ごとの解釈可能な選択マップを生成するセレクタネットワークを設計する。
提案した2つのタスク - マルチビュー・ヒューマン・リポジングとミックス・アンド・マッチ・ヒューマン・イメージ・ジェネレーション - に対するネットワークの適用について述べる。
- 参考スコア(独自算出の注目度): 34.23189648860301
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The vision community has explored numerous pose guided human editing methods
due to their extensive practical applications. Most of these methods still use
an image-to-image formulation in which a single image is given as input to
produce an edited image as output. However, the problem is ill-defined in cases
when the target pose is significantly different from the input pose. Existing
methods then resort to in-painting or style transfer to handle occlusions and
preserve content. In this paper, we explore the utilization of multiple views
to minimize the issue of missing information and generate an accurate
representation of the underlying human model. To fuse the knowledge from
multiple viewpoints, we design a selector network that takes the pose keypoints
and texture from images and generates an interpretable per-pixel selection map.
After that, the encodings from a separate network (trained on a single image
human reposing task) are merged in the latent space. This enables us to
generate accurate, precise, and visually coherent images for different editing
tasks. We show the application of our network on 2 newly proposed tasks -
Multi-view human reposing, and Mix-and-match human image generation.
Additionally, we study the limitations of single-view editing and scenarios in
which multi-view provides a much better alternative.
- Abstract(参考訳): 視覚コミュニティは、その広範な実用的応用のために、多くのポーズガイドによる人間の編集方法を探求してきた。
これらの手法のほとんどは、単一の画像が入力として与えられ、編集された画像を出力として生成する画像から画像への定式化を依然として使っている。
しかし、ターゲットポーズが入力ポーズと大きく異なる場合、問題は未定義である。
既存の方法では、インペインティングやスタイル転送を利用してオクルージョンを処理し、コンテンツを保存する。
本稿では,欠落情報の問題を最小限に抑えるために複数のビューの利用を検討し,基礎となる人間モデルの正確な表現を生成する。
複数の視点から知識を融合させるため,画像からキーポイントとテクスチャを抽出し,解釈可能な画素ごとの選択マップを生成するセレクタネットワークを設計する。
その後、別々のネットワーク(単一の画像人間再現タスクで訓練された)からのエンコーディングを潜伏空間にマージする。
これにより、異なる編集タスクに対して正確で正確で視覚的に一貫性のある画像を生成することができる。
本稿では,新たに提案する2つのタスクのマルチビュー・ヒューマン・レポジトリとミックス・アンド・マッチ・ヒューマン・イメージ生成におけるネットワークの適用例を示す。
さらに,単一ビュー編集の限界と,マルチビューがより優れた代替手段を提供するシナリオについても検討した。
関連論文リスト
- Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Continuous Layout Editing of Single Images with Diffusion Models [24.581184791106562]
本稿では,その視覚的特性を保ちながら,単一の画像のレイアウト編集を行うための最初のフレームワークを提案する。
私たちのアプローチは2つの重要なモジュールを通じて実現されます。
私たちのコードは受理後、無料で公開されます。
論文 参考訳(メタデータ) (2023-06-22T17:51:05Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Pose Guided Multi-person Image Generation From Text [15.15576618501609]
既存の手法は、高忠実度フルボディ画像、特に複数の人物を作成するのに苦労している。
本稿では,追加入力制約としてポーズを用いたポーズ誘導型テキスト・ツー・イメージモデルを提案する。
Deepfashionデータセットに結果を示し、新しい複数人Deepfashionデータセットを作成し、このアプローチのマルチ能力を実証する。
論文 参考訳(メタデータ) (2022-03-09T17:38:03Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z) - Unifying Specialist Image Embedding into Universal Image Embedding [84.0039266370785]
画像の様々な領域に適用可能な普遍的な深層埋め込みモデルを持つことが望ましい。
本稿では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。
論文 参考訳(メタデータ) (2020-03-08T02:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。