論文の概要: FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2507.15249v1
- Date: Mon, 21 Jul 2025 05:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.263457
- Title: FreeCus: Free Lunch Subject-driven Customization in Diffusion Transformers
- Title(参考訳): FreeCus: 拡散変圧器におけるフリーランチ対象駆動のカスタマイズ
- Authors: Yanbing Zhang, Zhe Wang, Qin Zhou, Mengping Yang,
- Abstract要約: FreeCusは、主題駆動合成のためのトレーニング不要のフレームワークである。
対象者のレイアウトの整合性を捉えるために,重要な注意共有機構を導入する。
さらに、高度多モーダル大言語モデル(MLLM)を統合して、多モーダルな意味表現を充実させる。
- 参考スコア(独自算出の注目度): 12.339742346826405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In light of recent breakthroughs in text-to-image (T2I) generation, particularly with diffusion transformers (DiT), subject-driven technologies are increasingly being employed for high-fidelity customized production that preserves subject identity from reference inputs, enabling thrilling design workflows and engaging entertainment. Existing alternatives typically require either per-subject optimization via trainable text embeddings or training specialized encoders for subject feature extraction on large-scale datasets. Such dependencies on training procedures fundamentally constrain their practical applications. More importantly, current methodologies fail to fully leverage the inherent zero-shot potential of modern diffusion transformers (e.g., the Flux series) for authentic subject-driven synthesis. To bridge this gap, we propose FreeCus, a genuinely training-free framework that activates DiT's capabilities through three key innovations: 1) We introduce a pivotal attention sharing mechanism that captures the subject's layout integrity while preserving crucial editing flexibility. 2) Through a straightforward analysis of DiT's dynamic shifting, we propose an upgraded variant that significantly improves fine-grained feature extraction. 3) We further integrate advanced Multimodal Large Language Models (MLLMs) to enrich cross-modal semantic representations. Extensive experiments reflect that our method successfully unlocks DiT's zero-shot ability for consistent subject synthesis across diverse contexts, achieving state-of-the-art or comparable results compared to approaches that require additional training. Notably, our framework demonstrates seamless compatibility with existing inpainting pipelines and control modules, facilitating more compelling experiences. Our code is available at: https://github.com/Monalissaa/FreeCus.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ(T2I)生成のブレークスルー、特に拡散トランスフォーマー(DiT)の進展により、オブジェクト駆動技術は、参照入力から対象のアイデンティティを保護し、スリルのあるデザインワークフローとエンタテイメントを実現するために、高忠実なカスタマイズプロダクションにますます採用されている。
既存の代替手段では、トレーニング可能なテキスト埋め込みによるオブジェクトごとの最適化や、大規模データセットの主題特徴抽出のための特別なエンコーダのトレーニングが求められている。
このような訓練手順への依存は、その実践的応用を根本的に制限する。
さらに重要なことは、現代の拡散変換器(例えば、フラックス級数)のゼロショットポテンシャルを真に主観的合成に完全に活用することができないことである。
このギャップを埋めるために、我々は3つの重要なイノベーションを通じてDiTの機能を活性化する、真のトレーニング不要のフレームワークであるFreeCusを提案する。
1)重要な編集の柔軟性を保ちながら,被験者のレイアウトの整合性をとらえる重要な注意共有機構を導入する。
2)DiTの動的シフトを直接解析することにより,細粒度の特徴抽出を大幅に改善する改良型を提案する。
3) 先進的マルチモーダル大言語モデル (MLLM) を統合し, クロスモーダルな意味表現を充実させる。
広汎な実験により,DiTのゼロショット能力は,様々な文脈で一貫した主題合成が可能であり,新たなトレーニングを必要とするアプローチと比較して,最先端ないし同等の結果が得られることが示唆された。
特に、当社のフレームワークは既存のパイプラインとコントロールモジュールとのシームレスな互換性を示し、より魅力的なエクスペリエンスを提供します。
私たちのコードは、https://github.com/Monalissaa/FreeCus.comで利用可能です。
関連論文リスト
- MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Multi-modal Knowledge Distillation-based Human Trajectory Forecasting [35.060041571520024]
歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。
このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。
そこで本研究では,多モードの知識蒸留フレームワークを提案する。多モードの知識蒸留を訓練した教師モデルから,限られたモダリティを持つ学生モデルを蒸留する。
論文 参考訳(メタデータ) (2025-03-28T07:32:51Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文 参考訳(メタデータ) (2024-06-17T17:59:43Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - GraFT: Gradual Fusion Transformer for Multimodal Re-Identification [0.8999666725996975]
マルチモーダル ReID のための textbf Gradual Fusion Transformer (GraFT) を導入する。
GraFTは学習可能な融合トークンを使用し、エンコーダ間で自己注意を誘導し、モダリティ固有の特徴とオブジェクト固有の特徴の両方を順応的にキャプチャする。
これらの拡張を広範囲にわたるアブレーション研究を通じて実証し、GraFTが確立されたマルチモーダルReIDベンチマークを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-25T00:15:40Z) - Traceable Group-Wise Self-Optimizing Feature Transformation Learning: A
Dual Optimization Perspective [33.45878576396101]
特徴変換は、既存の特徴を数学的に洗練することにより、効果的な表現空間を再構築することを目的としている。
既存の研究は主にドメイン知識に基づく特徴工学や学習潜在表現に重点を置いている。
最初の作業は、新しい自己最適化フレームワークを導入することで、この課題への先駆的な一歩を踏み出したのです。
論文 参考訳(メタデータ) (2023-06-29T12:29:21Z) - SE(3)-DiffusionFields: Learning smooth cost functions for joint grasp
and motion optimization through diffusion [34.25379651790627]
本研究では,データ駆動型SE(3)コスト関数を拡散モデルとして学習する手法を提案する。
我々は6DoFグルーピングのためのSE(3)拡散モデルの学習に重点を置いており、関節グルーピングと運動最適化のための新しい枠組みを生み出している。
論文 参考訳(メタデータ) (2022-09-08T14:50:23Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。