論文の概要: Real-Time Person Image Synthesis Using a Flow Matching Model
- arxiv url: http://arxiv.org/abs/2505.03562v1
- Date: Tue, 06 May 2025 14:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.420185
- Title: Real-Time Person Image Synthesis Using a Flow Matching Model
- Title(参考訳): フローマッチングモデルを用いたリアルタイム人物画像合成
- Authors: Jiwoo Jeong, Kirok Kim, Wooju Kim, Nam-Joon Kim,
- Abstract要約: PGPIS(Pose-Guided Person Image Synthesis)は、ターゲットポーズとソースイメージに条件付けされた現実的な人物画像を生成する。
近年の拡散法では,PGPISの画質が著しく向上している。
私たちのアプローチは、より速く、より安定し、より効率的なトレーニングとサンプリングを可能にします。
- 参考スコア(独自算出の注目度): 3.149883354098941
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pose-Guided Person Image Synthesis (PGPIS) generates realistic person images conditioned on a target pose and a source image. This task plays a key role in various real-world applications, such as sign language video generation, AR/VR, gaming, and live streaming. In these scenarios, real-time PGPIS is critical for providing immediate visual feedback and maintaining user immersion.However, achieving real-time performance remains a significant challenge due to the complexity of synthesizing high-fidelity images from diverse and dynamic human poses. Recent diffusion-based methods have shown impressive image quality in PGPIS, but their slow sampling speeds hinder deployment in time-sensitive applications. This latency is particularly problematic in tasks like generating sign language videos during live broadcasts, where rapid image updates are required. Therefore, developing a fast and reliable PGPIS model is a crucial step toward enabling real-time interactive systems. To address this challenge, we propose a generative model based on flow matching (FM). Our approach enables faster, more stable, and more efficient training and sampling. Furthermore, the proposed model supports conditional generation and can operate in latent space, making it especially suitable for real-time PGPIS applications where both speed and quality are critical. We evaluate our proposed method, Real-Time Person Image Synthesis Using a Flow Matching Model (RPFM), on the widely used DeepFashion dataset for PGPIS tasks. Our results show that RPFM achieves near-real-time sampling speeds while maintaining performance comparable to the state-of-the-art models. Our methodology trades off a slight, acceptable decrease in generated-image accuracy for over a twofold increase in generation speed, thereby ensuring real-time performance.
- Abstract(参考訳): PGPIS(Pose-Guided Person Image Synthesis)は、ターゲットポーズとソースイメージに条件付けされた現実的な人物画像を生成する。
このタスクは、手話ビデオ生成、AR/VR、ゲーム、ライブストリーミングなど、さまざまな現実世界のアプリケーションにおいて重要な役割を果たす。
これらのシナリオでは、リアルタイムPGPISは即時視覚フィードバックの提供とユーザ没入の維持に不可欠であるが、多彩でダイナミックな人間のポーズから高忠実なイメージを合成する複雑さのため、リアルタイムパフォーマンスの実現は大きな課題である。
近年の拡散法では,PGPISでは画像品質が著しく向上しているが,サンプリング速度の遅いため,時間に敏感なアプリケーションへの展開が妨げられている。
このレイテンシは、高速な画像更新が必要なライブブロードキャスト中に手話ビデオを生成するようなタスクで特に問題となる。
したがって、高速で信頼性の高いPGPISモデルを開発することは、リアルタイムインタラクティブシステムを実現するための重要なステップである。
この課題に対処するために,フローマッチング(FM)に基づく生成モデルを提案する。
私たちのアプローチは、より速く、より安定し、より効率的なトレーニングとサンプリングを可能にします。
さらに,提案モデルでは条件付き生成をサポートし,遅延空間で動作可能であり,速度と品質の両方が重要となるリアルタイムPGPISアプリケーションに特に適している。
PGPISタスクに広く使われているDeepFashionデータセット上で,提案手法である実時間人物画像合成(RPFM)を評価した。
その結果,RPFMは最先端モデルに匹敵する性能を維持しつつ,ほぼリアルタイムなサンプリング速度を実現することがわかった。
提案手法は, 生成速度を2倍以上に向上させるため, 生成画像の精度がわずかに低下し, リアルタイム性能が保証される。
関連論文リスト
- Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Online hand gesture recognition using Continual Graph Transformers [1.3927943269211591]
リアルタイムスケルトンシーケンスストリーミングのための新しいオンライン認識システムを提案する。
提案手法は最先端の精度を実現し, 偽陽性率を大幅に低減し, リアルタイムアプリケーションにとって魅力的なソリューションとなる。
提案システムは,人間とロボットのコラボレーションや補助技術など,さまざまな領域にシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-02-20T17:27:55Z) - XR-VIO: High-precision Visual Inertial Odometry with Fast Initialization for XR Applications [34.2082611110639]
本稿では,視覚慣性オドメトリー(VIO)に対する新しいアプローチとして,初期化と特徴マッチングモジュールについて述べる。
ジャイロスコープの既存の方法は、運動からの視覚構造(SfM)の安定性の低下や、膨大な数のパラメータの同時解決に悩まされることが多い。
測定値の密結合により,視覚的SfMの堅牢性と精度が向上する。
特徴マッチングに関しては,光学フローとディスクリプタベースマッチングを組み合わせたハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T12:17:51Z) - Generative Adversarial Network on Motion-Blur Image Restoration [0.0]
我々は、GAN(Generative Adrial Networks)を活用して、動きのぼやけによるイメージを効果的に損なうことに焦点をあてる。
GANベースの逆流モデルを定義し、GoProデータセットを用いてトレーニングし、評価する。
PNR(Peak Signal-to-Noise Ratio)とSSIM(Structure similarity Index Measure)は、画像品質の定量的測定に使用される2つの評価指標である。
論文 参考訳(メタデータ) (2024-12-27T06:12:50Z) - Time Step Generating: A Universal Synthesized Deepfake Image Detector [0.4488895231267077]
汎用合成画像検出器 Time Step Generating (TSG) を提案する。
TSGは、事前訓練されたモデルの再構築能力、特定のデータセット、サンプリングアルゴリズムに依存していない。
我々は,提案したTSGを大規模GenImageベンチマークで検証し,精度と一般化性の両方において大幅な改善を実現した。
論文 参考訳(メタデータ) (2024-11-17T09:39:50Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Physics-Driven Turbulence Image Restoration with Stochastic Refinement [80.79900297089176]
大気乱流による画像歪みは、長距離光学画像システムにおいて重要な問題である。
ディープラーニングモデルが現実世界の乱流条件に適応するために、高速で物理学的なシミュレーションツールが導入された。
本稿では,物理統合復元ネットワーク(PiRN)を提案する。
論文 参考訳(メタデータ) (2023-07-20T05:49:21Z) - Recovering Continuous Scene Dynamics from A Single Blurry Image with
Events [58.7185835546638]
インプリシットビデオ関数(IVF)は、同時イベントを伴う単一の動きのぼやけた画像を表現する。
両モードの利点を効果的に活用するために、二重注意変換器を提案する。
提案するネットワークは,限られた参照タイムスタンプの地平線画像の監督のみで訓練される。
論文 参考訳(メタデータ) (2023-04-05T18:44:17Z) - TimeLens: Event-based Video Frame Interpolation [54.28139783383213]
本稿では,合成法とフロー法の両方の利点を生かした,等価寄与法であるTime Lensを紹介する。
最先端のフレームベースおよびイベントベース手法よりもPSNRが最大5.21dB向上したことを示す。
論文 参考訳(メタデータ) (2021-06-14T10:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。