論文の概要: GroupDiff: Diffusion-based Group Portrait Editing
- arxiv url: http://arxiv.org/abs/2409.14379v1
- Date: Sun, 22 Sep 2024 09:50:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:52:53.019618
- Title: GroupDiff: Diffusion-based Group Portrait Editing
- Title(参考訳): GroupDiff: 拡散に基づくグループポートレート編集
- Authors: Yuming Jiang, Nanxuan Zhao, Qing Liu, Krishna Kumar Singh, Shuai Yang, Chen Change Loy, Ziwei Liu,
- Abstract要約: GroupDiffは、グループ写真の編集に取り組む先駆的な取り組みだ。
GroupDiffは、オリジナルの写真の忠実さを編集し、維持するためのコントロール機能を提供する。
- 参考スコア(独自算出の注目度): 88.77464449478279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group portrait editing is highly desirable since users constantly want to add a person, delete a person, or manipulate existing persons. It is also challenging due to the intricate dynamics of human interactions and the diverse gestures. In this work, we present GroupDiff, a pioneering effort to tackle group photo editing with three dedicated contributions: 1) Data Engine: Since there is no labeled data for group photo editing, we create a data engine to generate paired data for training. The training data engine covers the diverse needs of group portrait editing. 2) Appearance Preservation: To keep the appearance consistent after editing, we inject the images of persons from the group photo into the attention modules and employ skeletons to provide intra-person guidance. 3) Control Flexibility: Bounding boxes indicating the locations of each person are used to reweight the attention matrix so that the features of each person can be injected into the correct places. This inter-person guidance provides flexible manners for manipulation. Extensive experiments demonstrate that GroupDiff exhibits state-of-the-art performance compared to existing methods. GroupDiff offers controllability for editing and maintains the fidelity of the original photos.
- Abstract(参考訳): グループ肖像画編集は、ユーザーが常に人を追加したり、削除したり、既存の人を操ったりすることを望んでいるため、非常に望ましい。
また、人間同士の相互作用の複雑なダイナミクスや多様なジェスチャーによっても困難である。
本稿では,グループ写真編集の先駆的取り組みであるGroupDiffを紹介する。
1) データエンジン:グループ写真編集のためのラベル付きデータがないため、トレーニング用のペアデータを生成するデータエンジンを作成します。
トレーニングデータエンジンは、グループ肖像画編集の多様なニーズをカバーしている。
2) 外観保存: 編集後の外観の整合性を維持するため, グループ写真からの人物像を注目モジュールに注入し, 骨格を用いて人体内指導を行う。
3)制御フレキシビリティ:各人物の位置を示す境界ボックスを用いて注意行列を重み付けし、各人物の特徴を正しい場所に注入する。
この対人的指導は、操作の柔軟な方法を提供する。
大規模な実験では、GroupDiffは既存の方法と比較して最先端のパフォーマンスを示している。
GroupDiffは、オリジナルの写真の忠実さを編集し、維持するためのコントロール機能を提供する。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - Learning Feature-Preserving Portrait Editing from Generated Pairs [11.122956539965761]
そこで本研究では,自動生成ペアデータを活用して,所望の編集を学習する学習手法を提案する。
本手法は,最先端の品質を定量的かつ質的に達成する。
論文 参考訳(メタデータ) (2024-07-29T23:19:42Z) - The Research of Group Re-identification from Multiple Cameras [0.4955551943523977]
グループ再識別は、従来の再識別タスクにおいて、視点や人間のポーズのバリエーションによって妨げられているだけでなく、非常に難しい。
本稿では,グループ内の多粒度情報を活用してグループ再同定を容易にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T18:28:13Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Unified Diffusion-Based Rigid and Non-Rigid Editing with Text and Image
Guidance [15.130419159003816]
本稿では,厳密な編集と非厳密な編集の両方を実行できる多用途画像編集フレームワークを提案する。
我々は、多種多様な編集シナリオを扱うために、デュアルパスインジェクション方式を利用する。
外観と構造情報の融合のための統合自己認識機構を導入する。
論文 参考訳(メタデータ) (2024-01-04T08:21:30Z) - EasyPortrait -- Face Parsing and Portrait Segmentation Dataset [79.16635054977068]
リアルタイムの背景除去や顔の美化といったコンピュータビジョンベースの機能を実現することで,ビデオ会議アプリが機能的になった。
これらのタスクを同時に行うために、新しいデータセット、EasyPortraitを作成します。
13,705人のユニークなユーザーと9つのクラスに分かれたきめ細かいセグメンテーションマスクを備えた、ビデオ会議のシナリオを繰り返す4万枚の屋内写真が含まれている。
論文 参考訳(メタデータ) (2023-04-26T12:51:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。