Fugu-MT 論文翻訳(概要): Learning Feature-Preserving Portrait Editing from Generated Pairs

論文の概要: Learning Feature-Preserving Portrait Editing from Generated Pairs

arxiv url: http://arxiv.org/abs/2407.20455v1
Date: Mon, 29 Jul 2024 23:19:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 18:38:42.404701
Title: Learning Feature-Preserving Portrait Editing from Generated Pairs
Title（参考訳）: 生成したペアから特徴保存ポートレート編集を学習する
Authors: Bowei Chen, Tiancheng Zhi, Peihao Zhu, Shen Sang, Jing Liu, Linjie Luo,
Abstract要約: そこで本研究では,自動生成ペアデータを活用して,所望の編集を学習する学習手法を提案する。本手法は,最先端の品質を定量的かつ質的に達成する。
参考スコア（独自算出の注目度）: 11.122956539965761
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Portrait editing is challenging for existing techniques due to difficulties in preserving subject features like identity. In this paper, we propose a training-based method leveraging auto-generated paired data to learn desired editing while ensuring the preservation of unchanged subject features. Specifically, we design a data generation process to create reasonably good training pairs for desired editing at low cost. Based on these pairs, we introduce a Multi-Conditioned Diffusion Model to effectively learn the editing direction and preserve subject features. During inference, our model produces accurate editing mask that can guide the inference process to further preserve detailed subject features. Experiments on costume editing and cartoon expression editing show that our method achieves state-of-the-art quality, quantitatively and qualitatively.
Abstract（参考訳）: ポートレート編集は、アイデンティティのような主題的特徴の保存が困難であるため、既存の技術では困難である。本稿では,自動生成ペアデータを利用した学習手法を提案する。具体的には、所望の編集のために、合理的に優れたトレーニングペアを低コストで作成するためのデータ生成プロセスを設計する。これらのペアに基づいて、編集方向を効果的に学習し、主観的特徴を保存するためのマルチコンディション拡散モデルを導入する。提案モデルでは,推測過程をガイドし,詳細な主題の特徴を更に保存することのできる,正確な編集マスクを生成する。コスチューム編集とマンガ表現編集の実験により,本手法は定量的かつ質的に,最先端の品質を達成できることを示した。

関連論文リスト

S$^2$Edit: Text-Guided Image Editing with Precise Semantic and Spatial Control [29.031157601804953]
S$2$Editはテキストから画像への拡散モデルであり、正確な意味論と空間制御によるパーソナライズされた編集を可能にする。 S$2$Editは、学習した意味的に乱れ、空間的に焦点を絞ったアイデンティティトークンを用いて、元のアイデンティティを忠実に保存しながら、ローカライズされた編集を行うことを示す。
論文参考訳（メタデータ） (2025-07-07T00:14:08Z)
CPAM: Context-Preserving Adaptive Manipulation for Zero-Shot Real Image Editing [24.68304617869157]
コンテキスト保存適応マニピュレーション(CPAM)は複雑な非厳密な実画像編集のための新しいフレームワークである。我々は,オブジェクトと背景を効果的に保存し,独立に制御する自己認識機構を調整した保存適応モジュールを開発した。また,多様な画像操作作業を簡易に行うためのマスク誘導戦略も導入した。
論文参考訳（メタデータ） (2025-06-23T09:19:38Z)
Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文参考訳（メタデータ） (2025-05-25T22:40:59Z)
PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。提案手法は, 利用者の77～90%に好まれる。
論文参考訳（メタデータ） (2025-02-06T13:08:43Z)
IP-FaceDiff: Identity-Preserving Facial Video Editing with Diffusion [12.494492016414503]
既存のモデルでは、編集品質の低下、高い計算コスト、多種多様な編集における顔認証の保存の困難といった課題に直面している。本稿では,事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルのリッチな潜時空間を活用する新しい顔画像編集フレームワークを提案する。本手法は,ビデオシーケンス全体の時間的一貫性を維持しながら編集時間を80%削減する。
論文参考訳（メタデータ） (2025-01-13T18:08:27Z)
UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。 CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。 CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文参考訳（メタデータ） (2024-12-19T18:59:58Z)
INRetouch: Context Aware Implicit Neural Representation for Photography Retouching [54.17599183365242]
本稿では、プロの編集から前後のイメージペアを通して学習する新しいリタッチ転送手法を提案する。我々は,画像の内容とコンテキストに基づいて,適応的に編集を適用することを学習する文脈認識型インプシットニューラル表現を開発した。提案手法は,参照編集から暗黙的な変換を抽出し,それらを新しい画像に適用する。
論文参考訳（メタデータ） (2024-12-05T03:31:48Z)
Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文参考訳（メタデータ） (2024-11-25T16:41:45Z)
AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。 3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文参考訳（メタデータ） (2024-11-24T07:02:56Z)
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。 AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文参考訳（メタデータ） (2024-07-03T19:36:33Z)
LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing [20.861672583434718]
LIPEは、2段階のフレームワークであり、同じ主題の画像の限られたセットを利用して生成モデルをカスタマイズするように設計されている。 LIPEは、同じ対象の限られた画像集合を用いて生成モデルをカスタマイズする2段階のフレームワークであり、その後、非厳密な画像編集のために学習済みのモデルを用いる。
論文参考訳（メタデータ） (2024-06-25T02:56:16Z)
Customize your NeRF: Adaptive Source Driven 3D Scene Editing via Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文参考訳（メタデータ） (2023-12-04T06:25:06Z)
Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文参考訳（メタデータ） (2023-11-28T15:31:11Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文参考訳（メタデータ） (2023-10-18T17:59:02Z)
StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文参考訳（メタデータ） (2023-03-28T00:16:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。