論文の概要: UMFuse: Unified Multi View Fusion for Human Editing applications
- arxiv url: http://arxiv.org/abs/2211.10157v4
- Date: Tue, 28 Mar 2023 11:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 19:28:55.547819
- Title: UMFuse: Unified Multi View Fusion for Human Editing applications
- Title(参考訳): UMFuse:人間編集アプリケーションのための統合マルチビューフュージョン
- Authors: Rishabh Jain, Mayur Hemani, Duygu Ceylan, Krishna Kumar Singh, Jingwan
Lu, Mausoom Sarkar, Balaji Krishnamurthy
- Abstract要約: 複数のソース画像からポーズキーポイントとテクスチャを取り出すマルチビュー融合ネットワークを設計する。
提案した2つのタスク - マルチビューヒューマンリポジトリとMix&Matchヒューマンイメージ生成 - に対するネットワークの適用について述べる。
- 参考スコア(独自算出の注目度): 36.94334399493266
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerous pose-guided human editing methods have been explored by the vision
community due to their extensive practical applications. However, most of these
methods still use an image-to-image formulation in which a single image is
given as input to produce an edited image as output. This objective becomes
ill-defined in cases when the target pose differs significantly from the input
pose. Existing methods then resort to in-painting or style transfer to handle
occlusions and preserve content. In this paper, we explore the utilization of
multiple views to minimize the issue of missing information and generate an
accurate representation of the underlying human model. To fuse knowledge from
multiple viewpoints, we design a multi-view fusion network that takes the pose
key points and texture from multiple source images and generates an explainable
per-pixel appearance retrieval map. Thereafter, the encodings from a separate
network (trained on a single-view human reposing task) are merged in the latent
space. This enables us to generate accurate, precise, and visually coherent
images for different editing tasks. We show the application of our network on
two newly proposed tasks - Multi-view human reposing and Mix&Match Human Image
generation. Additionally, we study the limitations of single-view editing and
scenarios in which multi-view provides a better alternative.
- Abstract(参考訳): 様々なポーズガイドによる人間の編集手法が視覚コミュニティによって研究されてきた。
しかし、これらの手法のほとんどは、単一の画像が入力として与えられ、編集された画像を出力として生成する画像から画像への定式化を用いる。
この目的は、ターゲットのポーズが入力のポーズと大きく異なる場合において不定義となる。
既存の方法では、インペインティングやスタイル転送を利用してオクルージョンを処理し、コンテンツを保存する。
本稿では,欠落情報の問題を最小限に抑えるために複数のビューの利用を検討し,基礎となる人間モデルの正確な表現を生成する。
複数の視点から知識を融合するために,複数のソース画像からポーズキーポイントとテクスチャを取り,説明可能なピクセル単位の出現検索マップを生成するマルチビュー融合ネットワークを設計した。
その後、別個のネットワーク(単視点のヒューマンレポジトリタスクでトレーニングされた)からのエンコーディングを潜在空間にマージする。
これにより、異なる編集タスクに対して正確で正確で視覚的に一貫性のある画像を生成することができる。
本稿では,新たに提案する2つのタスク,マルチビューのヒューマンレポジトリとmix&matchの人間画像生成に適用する。
さらに,単一ビュー編集の限界と,マルチビューがより良い代替手段を提供するシナリオについても検討した。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - Continuous Layout Editing of Single Images with Diffusion Models [24.581184791106562]
本稿では,その視覚的特性を保ちながら,単一の画像のレイアウト編集を行うための最初のフレームワークを提案する。
私たちのアプローチは2つの重要なモジュールを通じて実現されます。
私たちのコードは受理後、無料で公開されます。
論文 参考訳(メタデータ) (2023-06-22T17:51:05Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Pose Guided Multi-person Image Generation From Text [15.15576618501609]
既存の手法は、高忠実度フルボディ画像、特に複数の人物を作成するのに苦労している。
本稿では,追加入力制約としてポーズを用いたポーズ誘導型テキスト・ツー・イメージモデルを提案する。
Deepfashionデータセットに結果を示し、新しい複数人Deepfashionデータセットを作成し、このアプローチのマルチ能力を実証する。
論文 参考訳(メタデータ) (2022-03-09T17:38:03Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z) - Unifying Specialist Image Embedding into Universal Image Embedding [84.0039266370785]
画像の様々な領域に適用可能な普遍的な深層埋め込みモデルを持つことが望ましい。
本稿では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。
論文 参考訳(メタデータ) (2020-03-08T02:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。