論文の概要: Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-based Visual Inversion
- arxiv url: http://arxiv.org/abs/2511.20821v1
- Date: Tue, 25 Nov 2025 20:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.843367
- Title: Training-Free Diffusion Priors for Text-to-Image Generation via Optimization-based Visual Inversion
- Title(参考訳): 最適化に基づく視覚インバージョンによるテキスト・画像生成の学習自由拡散優先
- Authors: Samuele Dell'Erba, Andrew D. Bagdanov,
- Abstract要約: 最適化ベースのVisual Inversion (OVI) はトレーニングフリーでデータフリーの代替手段である。
OVIは、ランダムな擬似トークンから潜伏した視覚表現を初期化し、コサイン類似性を最大化するために反復的に最適化する。
カンディンスキー2.2で実施された実験では、OVIが従来の手法の代替となることが示されている。
- 参考スコア(独自算出の注目度): 11.905134977931075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have established the state-of-the-art in text-to-image generation, but their performance often relies on a diffusion prior network to translate text embeddings into the visual manifold for easier decoding. These priors are computationally expensive and require extensive training on massive datasets. In this work, we challenge the necessity of a trained prior at all by employing Optimization-based Visual Inversion (OVI), a training-free and data-free alternative, to replace the need for a prior. OVI initializes a latent visual representation from random pseudo-tokens and iteratively optimizes it to maximize the cosine similarity with input textual prompt embedding. We further propose two novel constraints, a Mahalanobis-based and a Nearest-Neighbor loss, to regularize the OVI optimization process toward the distribution of realistic images. Our experiments, conducted on Kandinsky 2.2, show that OVI can serve as an alternative to traditional priors. More importantly, our analysis reveals a critical flaw in current evaluation benchmarks like T2I-CompBench++, where simply using the text embedding as a prior achieves surprisingly high scores, despite lower perceptual quality. Our constrained OVI methods improve visual fidelity over this baseline, with the Nearest-Neighbor approach proving particularly effective, achieving quantitative scores comparable to or higher than the state-of-the-art data-efficient prior, indicating that the idea merits further investigation. The code will be publicly available upon acceptance.
- Abstract(参考訳): 拡散モデルはテキスト・ツー・イメージ生成の最先端を確立してきたが、その性能は容易に復号するためにテキストの埋め込みを視覚多様体に変換するための拡散前のネットワークに依存していることが多い。
これらの事前処理は計算コストが高く、大量のデータセットの広範なトレーニングを必要とする。
本研究では、トレーニング不要でデータフリーな代替手段である最適化ベースのVisual Inversion (OVI) を用いて、事前の必要性を置き換えることにより、トレーニング済みの事前の必要性に挑戦する。
OVIは、ランダムな擬似トークンから潜伏した視覚表現を初期化し、入力テキストのプロンプト埋め込みとコサイン類似性を最大化するために反復的に最適化する。
さらに, 実写画像の分布に対するOVI最適化プロセスの正規化のために, マハラノビスに基づく2つの新しい制約, およびニアネバーロスを提案する。
Kandinsky 2.2 を用いて行った実験により,OVI が従来の手法の代替となることが示された。
さらに重要なことは、我々の分析がT2I-CompBench++のような現在の評価ベンチマークの重大な欠陥を明らかにしていることだ。
我々の制約されたOVI手法は、このベースラインに対する視覚的忠実度を向上し、Nearest-Neighborアプローチは特に有効であることが証明され、そのアイデアがさらなる調査に値することを示す。
コードは受理時に公開される。
関連論文リスト
- RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling [59.088798018184235]
textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。
トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。
RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
論文 参考訳(メタデータ) (2025-10-23T04:45:09Z) - Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - How to Use Diffusion Priors under Sparse Views? [29.738350228085928]
Inline Prior Guided Score Matching is proposed to provide visual supervision over sparse view in 3D reconstruction。
提案手法は,最先端の復元品質を実現する。
論文 参考訳(メタデータ) (2024-12-03T07:31:54Z) - PriorDiffusion: Leverage Language Prior in Diffusion Models for Monocular Depth Estimation [10.856377349228927]
拡散モデルのテキスト・ツー・イメージ事前学習において得られた帰納的バイアスを活用することにより,先行言語は単眼深度推定を向上させることができると論じる。
本稿では,アフィン不変深度を推定するために,画像と対応するテキスト記述を併用した事前学習型テキスト・画像拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-11-24T05:07:10Z) - TG-LLaVA: Text Guided LLaVA via Learnable Latent Embeddings [61.9257731511557]
視覚言語モデル(VLM)を最適化するためのテキストガイド付きLLaVA(TG-LLaVA)を提案する。
学習可能な潜伏埋め込みをブリッジとして使用し、テキスト命令を分析し、視覚エンコーダに解析結果をガイダンスとして付加する。
テキストのガイダンスによって、視覚エンコーダは、人間が質問を考えるとき、画像の最も関連性の高い部分に集中する方法と同様に、テキスト関連の特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-09-15T00:38:34Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - VA-DepthNet: A Variational Approach to Single Image Depth Prediction [163.14849753700682]
VA-DepthNetは、単一画像深度予測問題に対する単純で効果的で正確なディープニューラルネットワークアプローチである。
本論文は,複数のベンチマークデータセットに対する広範囲な評価とアブレーション解析により提案手法の有用性を実証する。
論文 参考訳(メタデータ) (2023-02-13T17:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。