論文の概要: SwiftPie: Lightning-fast Subject-driven Image Personalization via One step Diffusion
- arxiv url: http://arxiv.org/abs/2605.01510v1
- Date: Sat, 02 May 2026 16:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.810035
- Title: SwiftPie: Lightning-fast Subject-driven Image Personalization via One step Diffusion
- Title(参考訳): SwiftPie: 1ステップの拡散によるライトニング高速な被写体駆動画像のパーソナライゼーション
- Authors: Huy Duong, Trong-Tung Nguyen, Cuong Pham, Anh Tran, Khoi Nguyen, Minh Hoai,
- Abstract要約: SwiftPieは、最初のワンステップ拡散画像パーソナライズツールである。
SwiftPieはより優れた画像パーソナライズ速度を提供し、マルチステップアプローチで同等のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 28.837524215048187
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion models have achieved remarkable success in high-quality image synthesis, sparking interest in image-guided generation tasks such as subject-driven image personalization. Despite their impressive personalization results, existing methods typically rely on computationally intensive fine-tuning, iterative optimization, or multi-step denoising processes, which significantly hinder their deployment and interactive capability in real-time applications. In this work, we present SwiftPie, the first one-step diffusion image personalization tool that enables lightning-fast generation of personalized images. SwiftPie introduces a novel dual-branch identity injection mechanism that effectively integrates subject identity into a one-step diffusion model. In addition, we incorporate a mask-guided rescaling strategy to further enhance subject contextualization within a single diffusion step. Extensive experiments demonstrate that SwiftPie not only delivers superior image personalization speed but also achieves comparable performance with multi-step approaches in both identity fidelity and prompt alignment. This work opens new opportunities for real-time, high-quality personalized image generation, paving the way for interactive visual synthesis.
- Abstract(参考訳): 拡散モデルは高品質な画像合成において顕著な成功を収め、主観駆動画像パーソナライゼーションなどの画像誘導タスクへの関心を喚起した。
その印象的なパーソナライゼーション結果にもかかわらず、既存の手法は計算集約的な微調整、反復最適化、マルチステップのデノナイズプロセスに依存しており、リアルタイムアプリケーションにおけるその展開と対話性を著しく妨げている。
本研究では,パーソナライズされた画像の高速な生成を可能にする,最初のワンステップ拡散画像パーソナライズツールであるSwiftPieを紹介する。
SwiftPieは、対象のアイデンティティをワンステップ拡散モデルに効果的に統合する、新しいデュアルブランチアイデンティティインジェクションメカニズムを導入した。
さらに,マスク誘導型再スケーリング戦略を取り入れて,単一拡散ステップ内での主観的文脈化をさらに強化する。
大規模な実験では、SwiftPieは優れた画像パーソナライゼーション速度を提供するだけでなく、アイデンティティの忠実さと迅速なアライメントの両方において、複数のステップアプローチで同等のパフォーマンスを実現している。
この研究は、リアルタイムで高品質なパーソナライズされた画像生成の新しい機会を開放し、インタラクティブな視覚合成の道を開く。
関連論文リスト
- Zero-Shot Personalization of Objects via Textual Inversion [36.82648022347006]
本稿では、学習ネットワークを用いて、オブジェクト固有のテキスト埋め込みを予測する新しいフレームワークを提案する。
この設計により、1つのフォワードパスで広範囲のオブジェクトを高速でゼロショットでパーソナライズすることができる。
我々の知る限り、この研究は拡散モデルにおけるそのような汎用的、トレーニング不要なパーソナライゼーションを達成するための最初の試みである。
論文 参考訳(メタデータ) (2026-03-24T09:54:30Z) - Flux Already Knows -- Activating Subject-Driven Image Generation without Training [25.496237241889048]
バニラフラックスモデルを用いた画像生成のためのゼロショットフレームワークを提案する。
我々は、追加のデータ、トレーニング、推論時の微調整なしで強力なID保存機能を起動する。
論文 参考訳(メタデータ) (2025-04-12T20:41:53Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。
本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文 参考訳(メタデータ) (2024-07-06T03:35:43Z) - LCM-Lookahead for Encoder-based Text-to-Image Personalization [82.56471486184252]
我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。
エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
論文 参考訳(メタデータ) (2024-04-04T17:43:06Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。