論文の概要: ASemConsist: Adaptive Semantic Feature Control for Training-Free Identity-Consistent Generation
- arxiv url: http://arxiv.org/abs/2512.23245v1
- Date: Mon, 29 Dec 2025 07:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.427097
- Title: ASemConsist: Adaptive Semantic Feature Control for Training-Free Identity-Consistent Generation
- Title(参考訳): ASemConsist: 学習自由なアイデンティティ一貫性生成のための適応的セマンティック特徴制御
- Authors: Shin seong Kim, Minjung Shin, Hyunin Cho, Youngjung Uh,
- Abstract要約: ASemconsistは、プロンプトアライメントを犠牲にすることなく、文字アイデンティティの明示的な意味制御を可能にする。
我々のフレームワークは最先端のパフォーマンスを実現し、実質的に以前のトレードオフを克服します。
- 参考スコア(独自算出の注目度): 14.341691123354195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image diffusion models have significantly improved visual quality and text alignment. However, generating a sequence of images while preserving consistent character identity across diverse scene descriptions remains a challenging task. Existing methods often struggle with a trade-off between maintaining identity consistency and ensuring per-image prompt alignment. In this paper, we introduce a novel framework, ASemconsist, that addresses this challenge through selective text embedding modification, enabling explicit semantic control over character identity without sacrificing prompt alignment. Furthermore, based on our analysis of padding embeddings in FLUX, we propose a semantic control strategy that repurposes padding embeddings as semantic containers. Additionally, we introduce an adaptive feature-sharing strategy that automatically evaluates textual ambiguity and applies constraints only to the ambiguous identity prompt. Finally, we propose a unified evaluation protocol, the Consistency Quality Score (CQS), which integrates identity preservation and per-image text alignment into a single comprehensive metric, explicitly capturing performance imbalances between the two metrics. Our framework achieves state-of-the-art performance, effectively overcoming prior trade-offs. Project page: https://minjung-s.github.io/asemconsist
- Abstract(参考訳): 最近のテキスト・ツー・イメージ拡散モデルでは、視覚的品質とテキストアライメントが大幅に改善されている。
しかし、多様なシーン記述にまたがる一貫した文字識別を保ちながら、一連の画像を生成することは、依然として困難な課題である。
既存のメソッドは、アイデンティティの整合性を維持することと、イメージごとのプロンプトアライメントを確保することの間のトレードオフに苦労することが多い。
本稿では,この課題に対処する新しいフレームワークであるASemconsistを紹介する。
さらに, FLUXにおけるパディング埋め込みの分析から, パディング埋め込みをセマンティックコンテナとして再利用するセマンティックコントロール戦略を提案する。
さらに,テキストのあいまいさを自動的に評価し,曖昧な識別プロンプトにのみ制約を適用する適応的特徴共有戦略を導入する。
最後に,ID保存と画像毎のテキストアライメントを統合した統一評価プロトコルであるCQSを提案する。
我々のフレームワークは最先端のパフォーマンスを実現し、実質的に以前のトレードオフを克服します。
プロジェクトページ: https://minjung-s.github.io/asemconsist
関連論文リスト
- Text-Conditioned Background Generation for Editable Multi-Layer Documents [32.896370365677136]
マルチページ編集とテーマ連続性を備えた文書中心の背景生成のためのフレームワークを提案する。
トレーニング不要なフレームワークは、視覚的に一貫性のあるテキスト保存ドキュメントを生成し、自然な設計による生成モデリングをブリッジする。
論文 参考訳(メタデータ) (2025-12-19T01:10:24Z) - Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt [14.734857939203811]
主観的視点から意味的絡み合いに対処する学習自由アプローチを提案する。
提案手法は既存のベースラインに対する主観的一貫性とテキストアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T11:55:06Z) - Immunizing Images from Text to Image Editing via Adversarial Cross-Attention [17.498230426195114]
本稿では,編集手法の視覚的構成要素を標的とした新たな攻撃を提案する。
本稿では,テキストプロンプトと画像の視覚的表現との交差注意を妨害するアテンションアタックを紹介する。
TEDBench++ベンチマークで行った実験では、我々の攻撃は認識不能なまま編集性能を著しく低下させることが示された。
論文 参考訳(メタデータ) (2025-09-12T15:47:50Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Context-Adaptive Multi-Prompt Embedding with Large Language Models for Vision-Language Alignment [33.152772648399846]
本稿では,視覚言語によるコントラスト学習における意味表現を豊かにするための新しい手法を提案する。
プリトレーニング済みのLLMをCLIPフレームワーク内のテキストエンコーダとして利用し、すべてのプロンプトを1つのフォワードパスで共同処理します。
結果として得られる即時埋め込みは統一されたテキスト表現に統合され、視覚的特徴とのセマンティックにリッチなアライメントを可能にする。
論文 参考訳(メタデータ) (2025-08-03T20:48:43Z) - Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。