論文の概要: UMFuse: Unified Multi View Fusion for Human Editing applications
- arxiv url: http://arxiv.org/abs/2211.10157v1
- Date: Thu, 17 Nov 2022 05:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 14:09:01.830094
- Title: UMFuse: Unified Multi View Fusion for Human Editing applications
- Title(参考訳): UMFuse:人間編集アプリケーションのための統合マルチビューフュージョン
- Authors: Rishabh Jain, Mayur Hemani, Duygu Ceylan, Krishna Kumar Singh, Jingwan
Lu, Mausooom Sarkar, Balaji Krishnamurthy
- Abstract要約: 我々は、画像からポーズキーポイントとテクスチャを抽出し、画素ごとの解釈可能な選択マップを生成するセレクタネットワークを設計する。
提案した2つのタスク - マルチビュー・ヒューマン・リポジングとミックス・アンド・マッチ・ヒューマン・イメージ・ジェネレーション - に対するネットワークの適用について述べる。
- 参考スコア(独自算出の注目度): 34.23189648860301
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The vision community has explored numerous pose guided human editing methods
due to their extensive practical applications. Most of these methods still use
an image-to-image formulation in which a single image is given as input to
produce an edited image as output. However, the problem is ill-defined in cases
when the target pose is significantly different from the input pose. Existing
methods then resort to in-painting or style transfer to handle occlusions and
preserve content. In this paper, we explore the utilization of multiple views
to minimize the issue of missing information and generate an accurate
representation of the underlying human model. To fuse the knowledge from
multiple viewpoints, we design a selector network that takes the pose keypoints
and texture from images and generates an interpretable per-pixel selection map.
After that, the encodings from a separate network (trained on a single image
human reposing task) are merged in the latent space. This enables us to
generate accurate, precise, and visually coherent images for different editing
tasks. We show the application of our network on 2 newly proposed tasks -
Multi-view human reposing, and Mix-and-match human image generation.
Additionally, we study the limitations of single-view editing and scenarios in
which multi-view provides a much better alternative.
- Abstract(参考訳): 視覚コミュニティは、その広範な実用的応用のために、多くのポーズガイドによる人間の編集方法を探求してきた。
これらの手法のほとんどは、単一の画像が入力として与えられ、編集された画像を出力として生成する画像から画像への定式化を依然として使っている。
しかし、ターゲットポーズが入力ポーズと大きく異なる場合、問題は未定義である。
既存の方法では、インペインティングやスタイル転送を利用してオクルージョンを処理し、コンテンツを保存する。
本稿では,欠落情報の問題を最小限に抑えるために複数のビューの利用を検討し,基礎となる人間モデルの正確な表現を生成する。
複数の視点から知識を融合させるため,画像からキーポイントとテクスチャを抽出し,解釈可能な画素ごとの選択マップを生成するセレクタネットワークを設計する。
その後、別々のネットワーク(単一の画像人間再現タスクで訓練された)からのエンコーディングを潜伏空間にマージする。
これにより、異なる編集タスクに対して正確で正確で視覚的に一貫性のある画像を生成することができる。
本稿では,新たに提案する2つのタスクのマルチビュー・ヒューマン・レポジトリとミックス・アンド・マッチ・ヒューマン・イメージ生成におけるネットワークの適用例を示す。
さらに,単一ビュー編集の限界と,マルチビューがより優れた代替手段を提供するシナリオについても検討した。
関連論文リスト
- A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - Continuous Layout Editing of Single Images with Diffusion Models [24.581184791106562]
本稿では,その視覚的特性を保ちながら,単一の画像のレイアウト編集を行うための最初のフレームワークを提案する。
私たちのアプローチは2つの重要なモジュールを通じて実現されます。
私たちのコードは受理後、無料で公開されます。
論文 参考訳(メタデータ) (2023-06-22T17:51:05Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Pose Guided Multi-person Image Generation From Text [15.15576618501609]
既存の手法は、高忠実度フルボディ画像、特に複数の人物を作成するのに苦労している。
本稿では,追加入力制約としてポーズを用いたポーズ誘導型テキスト・ツー・イメージモデルを提案する。
Deepfashionデータセットに結果を示し、新しい複数人Deepfashionデータセットを作成し、このアプローチのマルチ能力を実証する。
論文 参考訳(メタデータ) (2022-03-09T17:38:03Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z) - Unifying Specialist Image Embedding into Universal Image Embedding [84.0039266370785]
画像の様々な領域に適用可能な普遍的な深層埋め込みモデルを持つことが望ましい。
本稿では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。
論文 参考訳(メタデータ) (2020-03-08T02:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。