論文の概要: S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing
- arxiv url: http://arxiv.org/abs/2404.08111v1
- Date: Thu, 11 Apr 2024 20:25:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:24:45.396718
- Title: S3Editor: A Sparse Semantic-Disentangled Self-Training Framework for Face Video Editing
- Title(参考訳): S3Editor: 顔ビデオ編集のためのスパースSemantic-Disentangled Self-Trainingフレームワーク
- Authors: Guangzhi Wang, Tianyi Chen, Kamran Ghasedi, HsiangTao Wu, Tianyu Ding, Chris Nuesmeyer, Ilya Zharkov, Mohan Kankanhalli, Luming Liang,
- Abstract要約: 本稿では,顔画像編集のためのS3Editorについて紹介する。
まず、S3Editorは自己学習パラダイムを採用し、セミスーパービジョンを通じてトレーニングプロセスを強化する。
次に,多様な編集要求に対応する動的ルーティング機構を備えた意味的不整合アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 38.804508101698275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face attribute editing plays a pivotal role in various applications. However, existing methods encounter challenges in achieving high-quality results while preserving identity, editing faithfulness, and temporal consistency. These challenges are rooted in issues related to the training pipeline, including limited supervision, architecture design, and optimization strategy. In this work, we introduce S3Editor, a Sparse Semantic-disentangled Self-training framework for face video editing. S3Editor is a generic solution that comprehensively addresses these challenges with three key contributions. Firstly, S3Editor adopts a self-training paradigm to enhance the training process through semi-supervision. Secondly, we propose a semantic disentangled architecture with a dynamic routing mechanism that accommodates diverse editing requirements. Thirdly, we present a structured sparse optimization schema that identifies and deactivates malicious neurons to further disentangle impacts from untarget attributes. S3Editor is model-agnostic and compatible with various editing approaches. Our extensive qualitative and quantitative results affirm that our approach significantly enhances identity preservation, editing fidelity, as well as temporal consistency.
- Abstract(参考訳): 顔属性の編集は様々なアプリケーションにおいて重要な役割を果たす。
しかし、既存の手法は、アイデンティティを維持し、忠実さを編集し、時間的一貫性を保ちながら、高品質な結果を達成する上で困難に直面する。
これらの課題は、限られた監督、アーキテクチャ設計、最適化戦略など、トレーニングパイプラインに関連する問題に根ざしています。
本稿では,顔画像編集のためのS3Editorについて紹介する。
S3Editorは、これらの課題に3つの重要なコントリビューションで包括的に対処する汎用的なソリューションである。
まず、S3Editorは自己学習パラダイムを採用し、セミスーパービジョンを通じてトレーニングプロセスを強化する。
次に,多様な編集要求に対応する動的ルーティング機構を備えた意味的不整合アーキテクチャを提案する。
第3に,非ターゲット属性からの影響をさらに分散させるために,有害ニューロンを識別・非活性化する構造的スパース最適化方式を提案する。
S3Editorはモデルに依存しず、様々な編集アプローチと互換性がある。
定性的かつ定量的な分析結果から,本手法は時間的整合性だけでなく,アイデンティティの保存,編集の正確性も著しく向上することが明らかとなった。
関連論文リスト
- SSEditor: Controllable Mask-to-Scene Generation with Diffusion Model [8.664947484778486]
SSEditorはコントロール可能なセマンティックシーンエディタで、複数のステップを再サンプリングすることなく特定のターゲットカテゴリを生成することができる。
第2段階では、幾何学的・意味的な情報を学習するモデルの能力を高める幾何学的・意味的融合モジュールを導入する。
未確認のOcc-3Dデータセットの実験は、SSEditorが新しい都市シーンを生成することができることを示している。
論文 参考訳(メタデータ) (2024-11-19T07:19:05Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - CNS-Edit: 3D Shape Editing via Coupled Neural Shape Optimization [56.47175002368553]
本稿では、3次元形状編集を潜在空間で暗黙的に行うために,結合表現とニューラルボリューム最適化に基づく新しい手法を提案する。
まず,3次元形状編集を支援する結合型ニューラル形状表現を設計する。
第二に、結合したニューラルネットワークの形状最適化手順を定式化し、編集操作対象の2つの結合した成分を協調最適化する。
論文 参考訳(メタデータ) (2024-02-04T01:52:56Z) - Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization [21.8454418337306]
本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z) - IDE-3D: Interactive Disentangled Editing for High-Resolution 3D-aware
Portrait Synthesis [38.517819699560945]
システムを構成する3つの主要なコンポーネントは,(1)図形に一貫性のある,不整合な顔画像とセマンティックマスクを生成する3次元セマンティック認識生成モデル,(2)意味的およびテクスチャエンコーダから潜伏符号を初期化し,さらに忠実な再構築のために最適化するハイブリッドGANインバージョンアプローチ,(3)カノニカルビューにおけるセマンティックマスクの効率的な操作を可能にするカノニカルエディタ,の3つである。
論文 参考訳(メタデータ) (2022-05-31T03:35:44Z) - TransEditor: Transformer-Based Dual-Space GAN for Highly Controllable
Facial Editing [110.82128064489237]
本稿では、より制御しやすい編集を実現するために、デュアルスペースGANにおけるインタラクションを強化する新しいトランスフォーマーベースのフレームワークであるTransEditorを提案する。
画像品質と編集能力において提案するフレームワークの優位性を示す実験により,高い制御性を有する顔編集におけるTransEditorの有効性が示唆された。
論文 参考訳(メタデータ) (2022-03-31T17:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。