論文の概要: CCR: Facial Image Editing with Continuity, Consistency and Reversibility
- arxiv url: http://arxiv.org/abs/2209.10734v1
- Date: Thu, 22 Sep 2022 02:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 12:39:39.475603
- Title: CCR: Facial Image Editing with Continuity, Consistency and Reversibility
- Title(参考訳): CCR:連続性、一貫性、可逆性を備えた顔画像編集
- Authors: Nan Yang, Xin Luan, Huidi Jia, Zhi Han and Yandong Tang
- Abstract要約: 連続的な顔画像編集には、連続的な編集、一貫性のない編集、不可逆的な編集という3つの問題がある。
本稿では,連続性,一貫性,可逆性を編集する目的を達成するための新しいモデルを提案する。
提案した定義とモデルは,マルチメディア処理における広範かつ有望な応用を期待できる。
- 参考スコア(独自算出の注目度): 13.748029135398161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Three problems exist in sequential facial image editing: incontinuous
editing, inconsistent editing, and irreversible editing. Incontinuous editing
is that the current editing can not retain the previously edited attributes.
Inconsistent editing is that swapping the attribute editing orders can not
yield the same results. Irreversible editing means that operating on a facial
image is irreversible, especially in sequential facial image editing. In this
work, we put forward three concepts and corresponding definitions: editing
continuity, consistency, and reversibility. Then, we propose a novel model to
achieve the goal of editing continuity, consistency, and reversibility. A
sufficient criterion is defined to determine whether a model is continuous,
consistent, and reversible. Extensive qualitative and quantitative experimental
results validate our proposed model and show that a continuous, consistent and
reversible editing model has a more flexible editing function while preserving
facial identity. Furthermore, we think that our proposed definitions and model
will have wide and promising applications in multimedia processing. Code and
data are available at https://github.com/mickoluan/CCR.
- Abstract(参考訳): シーケンシャルな顔画像編集には、不連続な編集、一貫性のない編集、不可逆的な編集という3つの問題がある。
不連続編集は、現在の編集が以前に編集された属性を保持できないことである。
一貫性のない編集では、属性の編集順序を交換しても結果が変わらない。
不可逆編集とは、特にシーケンシャルな顔画像編集において、顔画像の操作が不可逆であることを意味する。
本研究では,連続性,一貫性,可逆性という3つの概念と対応する定義を提示する。
そこで我々は,連続性,一貫性,可逆性を編集するための新しいモデルを提案する。
モデルの連続性、一貫性、可逆性を決定するのに十分な基準が定義される。
大規模定性的かつ定量的な実験結果から提案したモデルの有効性を検証し、連続的かつ一貫した可逆的編集モデルにより、顔認証を維持しながらより柔軟な編集機能を有することを示す。
さらに,提案した定義とモデルがマルチメディア処理に広く,有望な応用をもたらすと考えられる。
コードとデータはhttps://github.com/mickoluan/ccrで入手できる。
関連論文リスト
- Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。
提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文 参考訳(メタデータ) (2024-11-25T16:41:45Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。
実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文 参考訳(メタデータ) (2024-01-18T18:58:44Z) - Inversion-Free Image Editing with Natural Language [18.373145158518135]
InfEdit(Inversion-free editing)は、厳密な意味的変化と非厳密な意味的変化の両面において、一貫性と忠実な編集を可能にする。
InfEditは、様々な編集タスクで強力なパフォーマンスを示し、また、1つのA40で3秒以内のシームレスなワークフローを維持し、リアルタイムアプリケーションの可能性を示している。
論文 参考訳(メタデータ) (2023-12-07T18:58:27Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - Task-agnostic Temporally Consistent Facial Video Editing [84.62351915301795]
タスクに依存しない、時間的に一貫した顔画像編集フレームワークを提案する。
3次元再構成モデルに基づいて,本フレームワークはより統一的で不整合な方法で複数の編集タスクを処理するように設計されている。
現状の顔画像編集法と比較すると,本フレームワークはより写実的で時間的に滑らかな映像像を生成する。
論文 参考訳(メタデータ) (2020-07-03T02:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。