論文の概要: Consistent text-to-image generation via scene de-contextualization
- arxiv url: http://arxiv.org/abs/2510.14553v1
- Date: Thu, 16 Oct 2025 10:54:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.823504
- Title: Consistent text-to-image generation via scene de-contextualization
- Title(参考訳): シーン・デコンテクスト化による一貫性のあるテキスト・画像生成
- Authors: Song Tang, Peihao Gong, Kunyu Li, Kai Guo, Boyu Wang, Mao Ye, Jianwei Zhang, Xiatian Zhu,
- Abstract要約: 一貫性テキスト・トゥ・イメージ(T2I)生成はIDシフトと呼ばれる現象のためにしばしば失敗する。
本稿では,主観的文脈とシーン的文脈の相関関係を,IDシフトの鍵となる要因として明らかにする。
本稿では,T2Iのシーンコンテキスト化をインバージョンするScene De-Conization(SDeC)を提案する。
- 参考スコア(独自算出の注目度): 48.19924216489272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consistent text-to-image (T2I) generation seeks to produce identity-preserving images of the same subject across diverse scenes, yet it often fails due to a phenomenon called identity (ID) shift. Previous methods have tackled this issue, but typically rely on the unrealistic assumption of knowing all target scenes in advance. This paper reveals that a key source of ID shift is the native correlation between subject and scene context, called scene contextualization, which arises naturally as T2I models fit the training distribution of vast natural images. We formally prove the near-universality of this scene-ID correlation and derive theoretical bounds on its strength. On this basis, we propose a novel, efficient, training-free prompt embedding editing approach, called Scene De-Contextualization (SDeC), that imposes an inversion process of T2I's built-in scene contextualization. Specifically, it identifies and suppresses the latent scene-ID correlation within the ID prompt's embedding by quantifying the SVD directional stability to adaptively re-weight the corresponding eigenvalues. Critically, SDeC allows for per-scene use (one scene per prompt) without requiring prior access to all target scenes. This makes it a highly flexible and general solution well-suited to real-world applications where such prior knowledge is often unavailable or varies over time. Experiments demonstrate that SDeC significantly enhances identity preservation while maintaining scene diversity.
- Abstract(参考訳): 一貫性のあるテキスト・トゥ・イメージ(T2I)生成は、様々な場面で同じ主題のアイデンティティ保存画像を作成しようとするが、IDシフトと呼ばれる現象のためにしばしば失敗する。
それまでの方法はこの問題に対処してきたが、通常、すべてのターゲットシーンを事前に知るという非現実的な仮定に依存している。
本稿では,T2Iモデルが膨大な自然画像のトレーニング分布に適合するように自然に発生するシーンコンテキスト化という,主題とシーンコンテキストのネイティブな相関が,IDシフトの重要な原因であることを明らかにする。
我々は、このシーンID相関のほぼ均一性を正式に証明し、その強度に関する理論的境界を導出する。
そこで本研究では,Scene De-Contextualization (SDeC) と呼ばれる,T2Iのシーンコンテキスト化をインバージョンする手法を提案する。
具体的には、SVD方向安定性を定量化し、対応する固有値を適応的に再重み付けすることで、IDプロンプトの埋め込みにおける潜時的なシーンID相関を特定し、抑制する。
重要な点として、SDeCはすべてのターゲットシーンへの事前アクセスを必要とせずに、シーン毎の使用(プロンプト毎の1シーン)を可能にする。
これは、そのような事前知識がしばしば利用できない、あるいは時間とともに変化する現実世界のアプリケーションに非常に柔軟で一般的なソリューションである。
実験により、SDeCはシーンの多様性を維持しながらアイデンティティを著しく向上させることが示された。
関連論文リスト
- Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - Subject-Consistent and Pose-Diverse Text-to-Image Generation [36.67159307721023]
本稿では,CoDi と呼ばれる主観的かつポーズ的T2I フレームワークを提案する。
多様なポーズとレイアウトで一貫した主題生成を可能にする。
CoDiは、すべてのメトリクスに対して、より優れた視覚的知覚とより強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-11T08:15:56Z) - Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image [53.09546752700792]
我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
論文 参考訳(メタデータ) (2025-05-20T13:27:52Z) - Insert Anything: Image Insertion via In-Context Editing in DiT [19.733787045511775]
本稿では,参照画像からのオブジェクトをフレキシブルかつユーザ指定の制御ガイダンスの下でシームレスに統合する参照ベース画像挿入のための統一的なフレームワークを提案する。
私たちのアプローチは、新しいAnyInsertionデータセット(人、オブジェクト、衣服の挿入など、さまざまなタスクをカバーする120Kプロンプトイメージペア)で一度トレーニングされます。
論文 参考訳(メタデータ) (2025-04-21T10:19:12Z) - One-Prompt-One-Story: Free-Lunch Consistent Text-to-Image Generation Using a Single Prompt [101.17660804110409]
テキスト画像生成モデルは、入力プロンプトから高品質な画像を生成することができる。
彼らはストーリーテリングのアイデンティティ保存要件の一貫性のある生成をサポートするのに苦労している。
本稿では,一貫したテキスト・画像生成のための新しいトレーニングフリー手法を提案する。
論文 参考訳(メタデータ) (2025-01-23T10:57:22Z) - Locate, Assign, Refine: Taming Customized Promptable Image Inpainting [22.163855501668206]
本稿では,マルチモーダル・プロンプト・イメージ・インパインティング・プロジェクト,新しいタスクモデル,カスタマイズされたイメージ・インパインティングのためのデータを紹介する。
マスクプロンプトに対応する画像中の特定の領域をシームレスに塗布できる,画像塗布の新しいアプローチであるLAR-Genを提案する。
我々のLAR-Genは、ソースイメージのコンテキスト整合性、主観的アイデンティティ整合性、テキスト記述に対する局所的セマンティック整合性、滑らか性整合性を保証するために粗大な方法で採用しています。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。