論文の概要: FreeGraftor: Training-Free Cross-Image Feature Grafting for Subject-Driven Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2504.15958v2
- Date: Sat, 26 Apr 2025 03:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.79823
- Title: FreeGraftor: Training-Free Cross-Image Feature Grafting for Subject-Driven Text-to-Image Generation
- Title(参考訳): FreeGraftor: 被験者駆動型テキスト-画像生成のための訓練不要なクロスイメージ特徴グラフト
- Authors: Zebin Yao, Lei Ren, Huixing Jiang, Chen Wei, Xiaojie Wang, Ruifan Li, Fangxiang Feng,
- Abstract要約: 被験者駆動画像生成のためのトレーニング不要なフレームワークであるFreeGraftorを提案する。
FreeGraftorは、参照対象から生成された画像へ視覚的詳細を転送するために、セマンティックマッチングと位置制約付き注意融合を使用している。
本フレームワークは,マルチオブジェクト生成にシームレスに拡張可能であり,実世界の展開に有効である。
- 参考スコア(独自算出の注目度): 21.181545626612028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subject-driven image generation aims to synthesize novel scenes that faithfully preserve subject identity from reference images while adhering to textual guidance, yet existing methods struggle with a critical trade-off between fidelity and efficiency. Tuning-based approaches rely on time-consuming and resource-intensive subject-specific optimization, while zero-shot methods fail to maintain adequate subject consistency. In this work, we propose FreeGraftor, a training-free framework that addresses these limitations through cross-image feature grafting. Specifically, FreeGraftor employs semantic matching and position-constrained attention fusion to transfer visual details from reference subjects to the generated image. Additionally, our framework incorporates a novel noise initialization strategy to preserve geometry priors of reference subjects for robust feature matching. Extensive qualitative and quantitative experiments demonstrate that our method enables precise subject identity transfer while maintaining text-aligned scene synthesis. Without requiring model fine-tuning or additional training, FreeGraftor significantly outperforms existing zero-shot and training-free approaches in both subject fidelity and text alignment. Furthermore, our framework can seamlessly extend to multi-subject generation, making it practical for real-world deployment. Our code is available at https://github.com/Nihukat/FreeGraftor.
- Abstract(参考訳): 主観駆動画像生成は、テキストガイダンスに固執しながら、参照画像から主観的アイデンティティを忠実に保存する斬新なシーンを合成することを目的としているが、既存の手法では、忠実性と効率性の重大なトレードオフに苦慮している。
チューニングベースのアプローチは、時間とリソース集約的な主観的最適化に依存し、ゼロショット法は適切な主観的一貫性を維持するのに失敗する。
本研究では,これらの制限にクロスイメージ機能グラフトを用いて対処する,トレーニング不要なフレームワークであるFreeGraftorを提案する。
具体的には、FreeGraftorは、参照対象から生成された画像へ視覚的詳細を転送するために、セマンティックマッチングと位置制約付き注意融合を使用している。
さらに,ロバストな特徴マッチングのための参照対象の幾何学的先行を保存するための新しいノイズ初期化戦略を組み込んだ。
大規模定性的および定量的実験により,テキスト・アライン・シーンの合成を維持しつつ,被験者の本人性を正確に伝達できることが実証された。
モデル微調整や追加のトレーニングを必要とせずに、FreeGraftorは既存のゼロショットとトレーニングなしのアプローチを、被験者の忠実さとテキストアライメントの両方で大幅に上回っている。
さらに,本フレームワークはマルチオブジェクト生成にシームレスに拡張可能であり,実世界の展開に有効である。
私たちのコードはhttps://github.com/Nihukat/FreeGraftor.comから入手可能です。
関連論文リスト
- Flux Already Knows -- Activating Subject-Driven Image Generation without Training [25.496237241889048]
バニラフラックスモデルを用いた画像生成のためのゼロショットフレームワークを提案する。
我々は、追加のデータ、トレーニング、推論時の微調整なしで強力なID保存機能を起動する。
論文 参考訳(メタデータ) (2025-04-12T20:41:53Z) - Unified Autoregressive Visual Generation and Understanding with Continuous Tokens [52.21981295470491]
We present UniFluid, a unified autoregressive framework for joint visual generation and understanding。
我々の統合自己回帰アーキテクチャはマルチモーダル画像とテキスト入力を処理し、テキストの離散トークンと画像の連続トークンを生成する。
画像生成と理解タスクの間には本質的にトレードオフがあることに気付きましたが、注意深く調整されたトレーニングレシピによって互いに改善できるようになりました。
論文 参考訳(メタデータ) (2025-03-17T17:58:30Z) - Efficient Personalized Text-to-image Generation by Leveraging Textual Subspace [52.24866347353916]
本稿では,テキストサブスペースへのターゲット埋め込みを効率的に探索する手法を提案する。
また,テキスト部分空間の基底を決定するための効率的な選択戦略を提案する。
本手法は、個人化されたテキスト・画像生成のためのより効率的な表現学習への扉を開く。
論文 参考訳(メタデータ) (2024-06-30T06:41:21Z) - Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation [22.949365270116335]
提案手法は,推論時間中に生成過程に介入するための学習不要な指導手法を提案する。
特に,本手法は例外的なゼロショット生成能力を示し,特にコンポジション生成の難易度が高い。
論文 参考訳(メタデータ) (2024-05-11T08:11:25Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter [63.622879199281705]
いくつかの例に基づく画像生成手法が提案されており、例えば、いくつかの入力参照の健全な特徴を吸収して新しい概念を生成する。
本研究では,DreamArtistというシンプルなフレームワークを提案する。このフレームワークは,事前学習した拡散モデルに対して,新しい正負の学習戦略を採用する。
我々は,画像類似性(忠実度)と多様性,生成制御性,スタイルのクローニングから,幅広い実験を行い,提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-11-21T10:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。