Fugu-MT 論文翻訳(概要): UMFuse: Unified Multi View Fusion for Human Editing applications

論文の概要: UMFuse: Unified Multi View Fusion for Human Editing applications

arxiv url: http://arxiv.org/abs/2211.10157v1
Date: Thu, 17 Nov 2022 05:09:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 14:09:01.830094
Title: UMFuse: Unified Multi View Fusion for Human Editing applications
Title（参考訳）: UMFuse:人間編集アプリケーションのための統合マルチビューフュージョン
Authors: Rishabh Jain, Mayur Hemani, Duygu Ceylan, Krishna Kumar Singh, Jingwan Lu, Mausooom Sarkar, Balaji Krishnamurthy
Abstract要約: 我々は、画像からポーズキーポイントとテクスチャを抽出し、画素ごとの解釈可能な選択マップを生成するセレクタネットワークを設計する。提案した2つのタスク - マルチビュー・ヒューマン・リポジングとミックス・アンド・マッチ・ヒューマン・イメージ・ジェネレーション - に対するネットワークの適用について述べる。
参考スコア（独自算出の注目度）: 34.23189648860301
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The vision community has explored numerous pose guided human editing methods due to their extensive practical applications. Most of these methods still use an image-to-image formulation in which a single image is given as input to produce an edited image as output. However, the problem is ill-defined in cases when the target pose is significantly different from the input pose. Existing methods then resort to in-painting or style transfer to handle occlusions and preserve content. In this paper, we explore the utilization of multiple views to minimize the issue of missing information and generate an accurate representation of the underlying human model. To fuse the knowledge from multiple viewpoints, we design a selector network that takes the pose keypoints and texture from images and generates an interpretable per-pixel selection map. After that, the encodings from a separate network (trained on a single image human reposing task) are merged in the latent space. This enables us to generate accurate, precise, and visually coherent images for different editing tasks. We show the application of our network on 2 newly proposed tasks - Multi-view human reposing, and Mix-and-match human image generation. Additionally, we study the limitations of single-view editing and scenarios in which multi-view provides a much better alternative.
Abstract（参考訳）: 視覚コミュニティは、その広範な実用的応用のために、多くのポーズガイドによる人間の編集方法を探求してきた。これらの手法のほとんどは、単一の画像が入力として与えられ、編集された画像を出力として生成する画像から画像への定式化を依然として使っている。しかし、ターゲットポーズが入力ポーズと大きく異なる場合、問題は未定義である。既存の方法では、インペインティングやスタイル転送を利用してオクルージョンを処理し、コンテンツを保存する。本稿では,欠落情報の問題を最小限に抑えるために複数のビューの利用を検討し,基礎となる人間モデルの正確な表現を生成する。複数の視点から知識を融合させるため,画像からキーポイントとテクスチャを抽出し,解釈可能な画素ごとの選択マップを生成するセレクタネットワークを設計する。その後、別々のネットワーク(単一の画像人間再現タスクで訓練された)からのエンコーディングを潜伏空間にマージする。これにより、異なる編集タスクに対して正確で正確で視覚的に一貫性のある画像を生成することができる。本稿では,新たに提案する2つのタスクのマルチビュー・ヒューマン・レポジトリとミックス・アンド・マッチ・ヒューマン・イメージ生成におけるネットワークの適用例を示す。さらに,単一ビュー編集の限界と,マルチビューがより優れた代替手段を提供するシナリオについても検討した。

関連論文リスト

ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions [74.30040551058319]
ComposeAnyoneはマルチモーダル条件を分離した制御可能なレイアウト・ツー・ヒューマン生成手法である。我々のデータセットは、各人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供する。複数のデータセットの実験では、ComposeAnyoneが所定のレイアウトに整合して人間の画像を生成することが示されている。
論文参考訳（メタデータ） (2025-01-21T14:32:47Z)
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。 T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文参考訳（メタデータ） (2024-06-20T17:58:52Z)
Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-11T17:59:51Z)
From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文参考訳（メタデータ） (2024-04-23T17:56:08Z)
Continuous Layout Editing of Single Images with Diffusion Models [24.581184791106562]
本稿では,その視覚的特性を保ちながら,単一の画像のレイアウト編集を行うための最初のフレームワークを提案する。私たちのアプローチは2つの重要なモジュールを通じて実現されます。私たちのコードは受理後、無料で公開されます。
論文参考訳（メタデータ） (2023-06-22T17:51:05Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Pose Guided Multi-person Image Generation From Text [15.15576618501609]
既存の手法は、高忠実度フルボディ画像、特に複数の人物を作成するのに苦労している。本稿では,追加入力制約としてポーズを用いたポーズ誘導型テキスト・ツー・イメージモデルを提案する。 Deepfashionデータセットに結果を示し、新しい複数人Deepfashionデータセットを作成し、このアプローチのマルチ能力を実証する。
論文参考訳（メタデータ） (2022-03-09T17:38:03Z)
Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。本手法は,単一画像入力から直接多面体画像を予測することを学習する。さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文参考訳（メタデータ） (2020-04-23T17:59:19Z)
Unifying Specialist Image Embedding into Universal Image Embedding [84.0039266370785]
画像の様々な領域に適用可能な普遍的な深層埋め込みモデルを持つことが望ましい。本稿では,複数の専門家の知識を普遍的な埋め込みに融合させてこの問題を解決することを提案する。
論文参考訳（メタデータ） (2020-03-08T02:51:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。