論文の概要: FlexID: Training-Free Flexible Identity Injection via Intent-Aware Modulation for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2602.07554v1
- Date: Sat, 07 Feb 2026 13:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.689228
- Title: FlexID: Training-Free Flexible Identity Injection via Intent-Aware Modulation for Text-to-Image Generation
- Title(参考訳): FlexID: テキスト・画像生成のためのインテント・アウェア・変調による学習自由なフレキシブル・アイデンティティ・インジェクション
- Authors: Guandong Li, Yijun Ding,
- Abstract要約: 意図認識変調を利用した学習自由フレームワークFlexIDを提案する。
本稿では,これらのストリームの重みを動的に変調するコンテキスト認識適応ゲーティング(CAG)機構を提案する。
IBenchの実験では、FlexIDがアイデンティティの一貫性とテキストの一貫性のバランスを達成している。
- 参考スコア(独自算出の注目度): 10.474377498273205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized text-to-image generation aims to seamlessly integrate specific identities into textual descriptions. However, existing training-free methods often rely on rigid visual feature injection, creating a conflict between identity fidelity and textual adaptability. To address this, we propose FlexID, a novel training-free framework utilizing intent-aware modulation. FlexID orthogonally decouples identity into two dimensions: a Semantic Identity Projector (SIP) that injects high-level priors into the language space, and a Visual Feature Anchor (VFA) that ensures structural fidelity within the latent space. Crucially, we introduce a Context-Aware Adaptive Gating (CAG) mechanism that dynamically modulates the weights of these streams based on editing intent and diffusion timesteps. By automatically relaxing rigid visual constraints when strong editing intent is detected, CAG achieves synergy between identity preservation and semantic variation. Extensive experiments on IBench demonstrate that FlexID achieves a state-of-the-art balance between identity consistency and text adherence, offering an efficient solution for complex narrative generation.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成は、特定のアイデンティティをテキスト記述にシームレスに統合することを目的としている。
しかし、既存のトレーニングフリーな手法は、しばしば厳密な視覚的特徴注入に依存し、アイデンティティの忠実さとテキスト適応性の間に矛盾を生じさせる。
そこで本研究では,意図認識変調を利用した新しいトレーニングフリーフレームワークFlexIDを提案する。
FlexIDはアイデンティティを直交的に2つの次元に分離する: セマンティック・アイデンティティ・プロジェクタ(SIP)は言語空間に高いレベルの事前を注入し、ビジュアル・フィーチャー・アンカー(VFA)は潜伏空間における構造的忠実性を保証する。
重要なことは、編集意図と拡散タイムステップに基づいて、これらのストリームの重みを動的に変調するコンテキストアウェア適応ゲーティング(CAG)機構を導入することである。
強い編集意図が検出されたとき、厳密な視覚的制約を自動的に緩和することにより、CAGはアイデンティティ保存と意味的変動の相乗効果を達成する。
IBenchに関する大規模な実験は、FlexIDがアイデンティティの一貫性とテキストのアテンデンスの間の最先端のバランスを達成し、複雑な物語生成のための効率的なソリューションを提供することを示した。
関連論文リスト
- Training for Identity, Inference for Controllability: A Unified Approach to Tuning-Free Face Personalization [16.851646868288135]
両パラダイムを相乗的に統合する統合チューニングフリーフレームワークであるUniIDを紹介する。
私たちの重要な洞察は、これらのアプローチを統合する際には、アイデンティティ関連情報のみを相互に強化する必要があるということです。
この原則により、UniIDはフレキシブルテキスト制御性を備えた高忠実な顔のパーソナライゼーションを実現することができる。
論文 参考訳(メタデータ) (2025-12-03T16:57:50Z) - ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文 参考訳(メタデータ) (2025-11-01T11:29:14Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - ID-EA: Identity-driven Text Enhancement and Adaptation with Textual Inversion for Personalized Text-to-Image Generation [33.84646269805187]
ID-EAは、テキストの埋め込みを視覚的アイデンティティの埋め込みに合わせてガイドする新しいフレームワークである。
ID-EAはアイデンティティ保存の指標において最先端の手法を大幅に上回っている。
パーソナライズされた肖像画は、既存のアプローチの15倍の速さで生成される。
論文 参考訳(メタデータ) (2025-07-16T07:42:02Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Identity-Preserving Text-to-Image Generation via Dual-Level Feature Decoupling and Expert-Guided Fusion [35.67333978414322]
本稿では,識別関連特徴と識別非関連特徴の分離を改善する新しい枠組みを提案する。
我々のフレームワークは、Implicit-ExplicitフォアグラウンドのデカップリングモジュールとFeature Fusionモジュールの2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2025-05-28T13:40:46Z) - See What You Seek: Semantic Contextual Integration for Cloth-Changing Person Re-Identification [14.01260112340177]
衣服交換者再識別(CC-ReID)は、衣服の変化にもかかわらず、監視カメラを通して個人をマッチングすることを目的としている。
既存の方法は通常、衣服の変化の影響を軽減するか、アイデンティティ(ID)関連の特徴を強化する。
本稿では,衣服による相違を低減し,IDの質を高めるために,新しいプロンプト学習フレームワークSemantic Contextual Integration(SCI)を提案する。
論文 参考訳(メタデータ) (2024-12-02T10:11:16Z) - Content and Salient Semantics Collaboration for Cloth-Changing Person Re-Identification [74.10897798660314]
衣服を交換する人物の再識別は、重複しないカメラで同じ人物の衣服の変化を認識することを目的としている。
衣服の外観からの干渉を効果的に軽減し、堅牢なアイデンティティ関連コンテンツと有能なセマンティックス・セマンティックス・マイニング・リファインメント(SMR)を抽出する統合されたセマンティックス・マイニング・アンド・リファインメント(SMR)モジュールを提案する。
提案手法は,3種類の布質変化ベンチマーク上での最先端性能を実現し,先進的な競合相手に対する優位性を実証する。
論文 参考訳(メタデータ) (2024-05-26T15:17:28Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。