論文の概要: MotionSwap
- arxiv url: http://arxiv.org/abs/2508.06430v1
- Date: Fri, 08 Aug 2025 16:16:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.29907
- Title: MotionSwap
- Title(参考訳): MotionSwap
- Authors: Om Patil, Jinesh Modi, Suryabha Mukhopadhyay, Meghaditya Giri, Chhavi Malhotra,
- Abstract要約: 我々はSimSwapのオリジナルのモデルにいくつかの改良を加えている。
これらの拡張により、アイデンティティの保存、属性の一貫性、全体的な視覚的品質が大幅に向上する。
本稿では,StyleGAN3の統合,唇同期の改善,3次元顔モデルの導入,ビデオベースアプリケーションにおける時間的整合性の導入など,今後の重要な方向性を明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face swapping technology has gained significant attention in both academic research and commercial applications. This paper presents our implementation and enhancement of SimSwap, an efficient framework for high fidelity face swapping. We introduce several improvements to the original model, including the integration of self and cross-attention mechanisms in the generator architecture, dynamic loss weighting, and cosine annealing learning rate scheduling. These enhancements lead to significant improvements in identity preservation, attribute consistency, and overall visual quality. Our experimental results, spanning 400,000 training iterations, demonstrate progressive improvements in generator and discriminator performance. The enhanced model achieves better identity similarity, lower FID scores, and visibly superior qualitative results compared to the baseline. Ablation studies confirm the importance of each architectural and training improvement. We conclude by identifying key future directions, such as integrating StyleGAN3, improving lip synchronization, incorporating 3D facial modeling, and introducing temporal consistency for video-based applications.
- Abstract(参考訳): 顔交換技術は、学術研究と商業応用の両方において大きな注目を集めている。
本稿では,高忠実度顔交換のための効率的なフレームワークであるSimSwapの実装と拡張について述べる。
本稿では,ジェネレータアーキテクチャにおける自己および相互注意機構の統合,動的損失重み付け,コサインアニーリング学習率スケジューリングなど,オリジナルのモデルにいくつかの改良を加えた。
これらの拡張により、アイデンティティの保存、属性の一貫性、全体的な視覚的品質が大幅に向上する。
実験の結果,40,000回のトレーニングを繰り返して,ジェネレータと識別器の性能の進歩的な改善を実証した。
強化されたモデルでは、同一性類似性が向上し、FIDスコアが低下し、ベースラインに比べて可視的に質的な結果が得られる。
アブレーション研究は、それぞれのアーキテクチャとトレーニングの改善の重要性を裏付けている。
本稿では,StyleGAN3の統合,唇同期の改善,3次元顔モデルの導入,ビデオベースアプリケーションにおける時間的整合性の導入など,今後の重要な方向性を明らかにした。
関連論文リスト
- evTransFER: A Transfer Learning Framework for Event-based Facial Expression Recognition [0.0]
イベントベースカメラを用いた顔の表情認識のための学習型フレームワークとアーキテクチャを提案する。
提案手法は,表情認識能力を大幅に向上させることを示す。
さらに,LSTMを組み込んで顔表情の長期的ダイナミクスをキャプチャするアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-05T16:26:09Z) - DCEvo: Discriminative Cross-Dimensional Evolutionary Learning for Infrared and Visible Image Fusion [58.36400052566673]
赤外線および可視画像融合は、異なるスペクトルバンドからの情報を統合して画質を向上させる。
既存のアプローチでは、画像融合とそれに続くハイレベルなタスクを別プロセスとして扱う。
本稿では、視覚的品質と知覚精度を同時に向上させるDCEvoと呼ばれる識別的クロス次元進化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-22T07:01:58Z) - Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation [49.202383675543466]
本稿では,単一画像から3次元モデルを生成する拡散過程の高速化に取り組むために,Acc3Dを提案する。
数段階の推論によって高品質な再構成を導出するため,ランダムノイズ状態におけるスコア関数の学習を規則化する上で重要な課題を強調した。
論文 参考訳(メタデータ) (2025-03-20T09:18:10Z) - Efficient Transformer for High Resolution Image Motion Deblurring [0.0]
本稿では,高分解能イメージモーションデブロアに対するRestormerアーキテクチャの総合的研究と改良について述べる。
モデル複雑性を18.4%削減し、最適化された注意機構によって性能を維持または改善するアーキテクチャ変更を導入する。
以上の結果から, 思考的アーキテクチャの単純化と学習戦略の強化が組み合わさって, より効率的かつ等しく機能的な作業モデルが得られることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T14:58:33Z) - From Noise to Nuance: Advances in Deep Generative Image Models [8.802499769896192]
ディープラーニングに基づく画像生成は、2021年以来パラダイムシフトを続けてきた。
安定拡散, DALL-E, 一貫性モデルの最近の進歩は, 画像合成の能力と性能の境界を再定義している。
マルチモーダル理解とゼロショット生成能力の強化が,産業全体にわたる実践的応用をいかに変えつつあるかを検討する。
論文 参考訳(メタデータ) (2024-12-12T02:09:04Z) - Efficient Degradation-aware Any Image Restoration [83.92870105933679]
我々は,低ランク体制下での学習者(DaLe)を用いた効率的なオールインワン画像復元システムである textitDaAIR を提案する。
モデルキャパシティを入力劣化に動的に割り当てることにより、総合学習と特定の学習を統合した効率的な復調器を実現する。
論文 参考訳(メタデータ) (2024-05-24T11:53:27Z) - Efficient-VQGAN: Towards High-Resolution Image Generation with Efficient
Vision Transformers [41.78970081787674]
本稿では,高解像度画像生成のためのより効率的な2段階フレームワークを提案する。
我々は,従来手法で用いたグローバルアテンション機構の代わりに,局所アテンションに基づく量子化モデルを用いる。
このアプローチは、より高速な生成速度、より高速な生成忠実度、解像度の向上をもたらす。
論文 参考訳(メタデータ) (2023-10-09T04:38:52Z) - IRGen: Generative Modeling for Image Retrieval [82.62022344988993]
本稿では,画像検索を生成モデルの一種として再フレーミングする新しい手法を提案する。
我々は、イメージを意味単位の簡潔なシーケンスに変換するという技術的課題に対処するため、IRGenと呼ばれるモデルを開発した。
本モデルは,広範に使用されている3つの画像検索ベンチマークと200万件のデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-17T17:07:36Z) - Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition [61.87842307164351]
まず,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity-Aware CycleGAN)モデルを提案する。
眼や鼻などの重要な顔領域の合成により多くの注意を払うことで、フォトエッチング合成におけるサイクガンを改善する。
IACycleGANによる画像の合成を反復的に行う合成モデルと認識モデルとの相互最適化手法を開発した。
論文 参考訳(メタデータ) (2021-03-30T01:30:08Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。