論文の概要: Golden RPG: Confidence-Adaptive Region-Aware Noise for Compositional Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2604.25314v1
- Date: Tue, 28 Apr 2026 07:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.755842
- Title: Golden RPG: Confidence-Adaptive Region-Aware Noise for Compositional Text-to-Image Generation
- Title(参考訳): Golden RPG: コンポジションテキスト・画像生成のための信頼度適応型領域認識ノイズ
- Authors: Hao Li,
- Abstract要約: 合成テキスト・トゥ・イメージ(T2I)生成は、異なる画像領域を記述する複数のサブプロンプトを尊重するモデルを必要とする。
textbfGolden RPGは,凍結したNPNetを2つのトレーニング可能な追加で拡張する領域対応ノイズ予測器である。
ゴールデンRPGは、CLIP-ScoreとCLIP-IQAで最強のベースラインにマッチしながら、各カテゴリーで最高クロスレギュオン・コヒーレンススコアを達成している。
- 参考スコア(独自算出の注目度): 6.188951069930088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compositional text-to-image (T2I) generation requires a model to honour multiple sub-prompts that describe distinct image regions. Recent work shows that the \emph{starting noise} of a diffusion model carries significant semantic information: ``golden'' noise predicted from text can substantially raise prompt fidelity. We observe that this noise prediction is, however, fundamentally global: the same network is asked to summarise a long, multi-region prompt with a single text embedding, which becomes the bottleneck whenever the prompt describes scenes with spatially-separated entities. We introduce \textbf{Golden RPG}, a region-aware noise predictor that extends a frozen NPNet with two trainable additions: (i) a per-region \textbf{FiLM adapter} that reshapes the predicted noise according to each sub-prompt; and (ii) a \textbf{Region Cross-Attention} layer injected between two stages of the Swin backbone, allowing different spatial locations to attend to different sub-prompt tokens. To prevent the regional conditioning from degrading samples whose prompts are already easy, we further propose a \textbf{Confidence-Adaptive Blending} head that dynamically predicts, per sample, how strongly the regional signal should override the global signal. We evaluate on the original RPG benchmark (20 prompts, 100 samples) and on four multi-region categories of T2I-CompBench (1{,}200 images, six competing methods). Golden RPG achieves the highest Cross-Region-Coherence score on every category, while matching the strongest baselines on absolute CLIP-Score and CLIP-IQA. A paired user study further shows a $\boldsymbol{\sim}$67\% preference over the strongest baseline. The adapter contains $\sim$2M trainable parameters and adds only $0.6$\,s of inference overhead on top of SDXL.
- Abstract(参考訳): 合成テキスト・トゥ・イメージ(T2I)生成は、異なる画像領域を記述する複数のサブプロンプトを尊重するモデルを必要とする。
近年の研究では、拡散モデルのemph{starting noise} が重要な意味情報を伝達していることが示されている。
しかし、このノイズ予測は基本的にはグローバルであり、同じネットワークが長い領域のプロンプトを単一のテキスト埋め込みで要約するよう求められ、プロンプトが空間的に分離されたエンティティでシーンを記述するとボトルネックとなる。
2つのトレーニング可能な追加で凍結NPNetを拡張する地域対応ノイズ予測器である \textbf{Golden RPG} を紹介する。
i) 各サブプロンプトに応じて予測されたノイズを再生する地域ごとのtextbf{FiLMアダプタ
(ii) Swin バックボーンの2つのステージの間に \textbf{Region Cross-Attention} 層が注入され、異なる空間位置が異なるサブプロンプトトークンに参加することができる。
さらに, 局所的な条件付けが既に容易であるサンプルの劣化を防止するため, さらに, サンプル毎に, 局所的な信号がグローバル信号の過度に過渡すべきかを動的に予測する \textbf{Confidence-Adaptive Blending} ヘッドを提案する。
我々は,オリジナルのRPGベンチマーク(20プロンプト,100サンプル)と,T2I-CompBench (1{,}200画像,6競合手法)の4つのマルチリージョンカテゴリについて評価を行った。
ゴールデンRPGは、CLIP-ScoreとCLIP-IQAで最強のベースラインにマッチしながら、各カテゴリーで最高クロスレギュオン・コヒーレンススコアを達成している。
ペア化されたユーザー調査では、最強のベースラインよりも$\boldsymbol{\sim}$67\%の好みが示されている。
アダプタには$\sim$2Mのトレーニング可能なパラメータが含まれており、SDXL上には$0.6$\の推論オーバーヘッドが加えられている。
関連論文リスト
- Local-Global Prompt Learning via Sparse Optimal Transport [3.7098626170498643]
CLIPのような視覚言語モデル(VLM)のわずかな適応は、一般的に、グローバルな画像埋め込みにマッチしたテキストプロンプトの学習に依存している。
近年の研究では、局所的な画像テキストアライメントを取り入れて、微細な視覚的手がかりを捉えることで、このパラダイムを拡張している。
本稿では,共有スパースパッチと最適トランスポートアロケーションのバランスをとるSOT-GLPを提案する。
論文 参考訳(メタデータ) (2026-03-09T13:09:55Z) - VLM2GeoVec: Toward Universal Multimodal Embeddings for Remote Sensing [59.73939718087177]
シングルエンコーダの視覚言語モデルは、統合ベクトル空間にインターリーブされた入力を埋め込むために対照的に訓練された。
VLM2GeoVecは、領域レベルの空間推論とスケーラブルな検索を統合し、リモートセンシングにおける凝集性多モード解析を可能にする。
論文 参考訳(メタデータ) (2025-12-12T11:39:35Z) - U(PM)$^2$:Unsupervised polygon matching with pre-trained models for challenging stereo images [2.3784282912975345]
本稿では,自動学習機能と手作り機能とを結合させることにより,事前学習モデルとの低コストな非教師付きポリゴンマッチングを新たに提案する。
我々は,ScanNetとSceneFlowのデータセットのU(PM)$2$を,新たな指標を用いてベンチマークした。
論文 参考訳(メタデータ) (2025-11-08T09:44:31Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Coupling Global Context and Local Contents for Weakly-Supervised
Semantic Segmentation [54.419401869108846]
Weakly Supervised Semantic (WSSS)モデルを提案する。
グローバルなオブジェクトコンテキストを異なる粒度空間でキャプチャするために,フレキシブルなコンテキストアグリゲーションモジュールを提案する。
局所的な細粒度を集約するために、ボトムアップパラメータ学習可能な方法で意味的に一貫した特徴融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-04-18T15:29:23Z) - OAMatcher: An Overlapping Areas-based Network for Accurate Local Feature
Matching [9.006654114778073]
OAMatcherは、人間の動作を模倣して、密集した正確な一致を生成する、検知不要な手法である。
OAMatcherは重複する領域を予測し、効果的でクリーンなグローバルコンテキストアグリゲーションを促進する。
総合的な実験により、OAMatcherはいくつかのベンチマークで最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-02-12T03:32:45Z) - PGNet: Real-time Arbitrarily-Shaped Text Spotting with Point Gathering
Network [54.03560668182197]
任意形状のテキストをリアルタイムで読み取るための,完全畳み込み点収集ネットワーク(PGNet)を提案する。
PG-CTCデコーダを用いて2次元空間から高レベル文字分類ベクトルを収集し,NMSやRoI操作を使わずにテキストシンボルに復号する。
実験により,提案手法は競争精度が向上し,走行速度が著しく向上することが確認された。
論文 参考訳(メタデータ) (2021-04-12T13:27:34Z) - Region Similarity Representation Learning [94.88055458257081]
Region similarity Representation Learning(ReSim)は、ローカリゼーションベースのタスクに対する自己監視型表現学習の新しいアプローチである。
ReSimはローカリゼーションのための地域表現とセマンティックイメージレベルの表現の両方を学びます。
競合するMoCo-v2ベースラインと比較して、ReSimがローカリゼーションと分類性能を大幅に向上させる表現をどのように学習するかを示します。
論文 参考訳(メタデータ) (2021-03-24T00:42:37Z) - ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene
Text Detection [147.10751375922035]
本研究では,シーンテキストの偽陽性と大規模分散を効果的に処理するContourNetを提案する。
本手法は,両方向の応答値の高い予測を出力するだけで,これらの偽陽性を効果的に抑制する。
論文 参考訳(メタデータ) (2020-04-10T08:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。