論文の概要: Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt
- arxiv url: http://arxiv.org/abs/2512.16443v1
- Date: Thu, 18 Dec 2025 11:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.039556
- Title: Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt
- Title(参考訳): 単一プロンプトを用いたテキスト・画像生成のためのテキスト・エンベディングの幾何学的歪み
- Authors: Shangxun Li, Youngjung Uh,
- Abstract要約: 主観的視点から意味的絡み合いに対処する学習自由アプローチを提案する。
提案手法は既存のベースラインに対する主観的一貫性とテキストアライメントの両方を大幅に改善する。
- 参考スコア(独自算出の注目度): 14.734857939203811
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models excel at generating high-quality images from natural language descriptions but often fail to preserve subject consistency across multiple outputs, limiting their use in visual storytelling. Existing approaches rely on model fine-tuning or image conditioning, which are computationally expensive and require per-subject optimization. 1Prompt1Story, a training-free approach, concatenates all scene descriptions into a single prompt and rescales token embeddings, but it suffers from semantic leakage, where embeddings across frames become entangled, causing text misalignment. In this paper, we propose a simple yet effective training-free approach that addresses semantic entanglement from a geometric perspective by refining text embeddings to suppress unwanted semantics. Extensive experiments prove that our approach significantly improves both subject consistency and text alignment over existing baselines.
- Abstract(参考訳): テキストと画像の拡散モデルは、自然言語の記述から高品質な画像を生成するのに優れるが、複数のアウトプットにまたがって主観的一貫性を維持することができず、視覚的なストーリーテリングでの使用を制限する。
既存のアプローチは、計算コストが高く、オブジェクトごとの最適化を必要とするモデルファインチューニングやイメージコンディショニングに依存している。
トレーニング不要のアプローチである1Prompt1Storyは、すべてのシーン記述をひとつのプロンプトにまとめ、トークンの埋め込みを再スケールする。
本稿では,不要な意味論を抑えるためにテキスト埋め込みを改良することにより,幾何学的視点から意味の絡み合いに対処する,シンプルで効果的な訓練自由アプローチを提案する。
大規模な実験により,本手法は既存のベースラインに対する主観的一貫性とテキストアライメントの両方を著しく改善することが示された。
関連論文リスト
- FocusDiff: Advancing Fine-Grained Text-Image Alignment for Autoregressive Visual Generation through RL [78.59912944698992]
微細なテキスト画像のセマンティックアライメントを強化するためにFocusDiffを提案する。
我々は、類似した全体表現を持つペアテキストと画像の新しいデータセットを構築するが、局所的な意味論を区別する。
提案手法は,既存のテキスト・画像・ベンチマークにおける最先端性能を実現し,PairCompの先行手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-06-05T18:36:33Z) - ShapeShift: Towards Text-to-Shape Arrangement Synthesis with Content-Aware Geometric Constraints [13.2441524021269]
ShapeShiftはテキスト誘導による画像から画像への変換タスクであり、入力された剛体形状の集合を重複しない構成に再構成する必要がある。
重複が発生した場合に,最小限の意味的コヒーレントな調整を施す,コンテンツ対応の衝突解決機構を導入する。
本手法は,空間的関係がテキストのプロンプトをはっきりと具現化した解釈可能な構成を与える。
論文 参考訳(メタデータ) (2025-03-18T20:48:58Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。