論文の概要: Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
- arxiv url: http://arxiv.org/abs/2512.03534v1
- Date: Wed, 03 Dec 2025 07:54:05 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:56:32.698247
- Title: Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
- Title(参考訳): テキスト・ツー・ビジュアル・ジェネレーションにおける推論時間スケーリングのためのプロンプト設計の再考
- Authors: Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, Yiran Xu, Difan Liu, Jinwoo Shin, Tobias Hinz,
- Abstract要約: Inference-time Scaling のための Prompt Redesign を提案する。これは、拡張された視覚世代に対応するために、推論中にプロンプトを適応的に修正するフレームワークである。
そこで我々は,素早い属性と生成した視覚の微粒化レベルでのアライメントを評価する,新しい検証手法である要素レベルの事実補正を導入する。
テキスト・ツー・イメージ・ベンチマークとテキスト・ツー・ビデオ・ベンチマークによる実験により,本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 63.042451267669485
- License:
- Abstract: Achieving precise alignment between user intent and generated visuals remains a central challenge in text-to-visual generation, as a single attempt often fails to produce the desired output. To handle this, prior approaches mainly scale the visual generation process (e.g., increasing sampling steps or seeds), but this quickly leads to a quality plateau. This limitation arises because the prompt, crucial for guiding generation, is kept fixed. To address this, we propose Prompt Redesign for Inference-time Scaling, coined PRIS, a framework that adaptively revises the prompt during inference in response to the scaled visual generations. The core idea of PRIS is to review the generated visuals, identify recurring failure patterns across visuals, and redesign the prompt accordingly before regenerating the visuals with the revised prompt. To provide precise alignment feedback for prompt revision, we introduce a new verifier, element-level factual correction, which evaluates the alignment between prompt attributes and generated visuals at a fine-grained level, achieving more accurate and interpretable assessments than holistic measures. Extensive experiments on both text-to-image and text-to-video benchmarks demonstrate the effectiveness of our approach, including a 15% gain on VBench 2.0. These results highlight that jointly scaling prompts and visuals is key to fully leveraging scaling laws at inference-time. Visualizations are available at the website: https://subin-kim-cv.github.io/PRIS.
- Abstract(参考訳): ユーザ意図と生成された視覚の正確な整合性を達成することは、単一の試みが望まれる出力を生成するのに失敗するので、テキストから視覚生成において、依然として中心的な課題である。
これに対処するため、従来のアプローチは主に視覚生成プロセス(例えば、サンプリングステップや種子の増加)をスケールするが、これはすぐに品質の高原に繋がる。
この制限は、生成を導くのに不可欠なプロンプトが固定されているために生じる。
これを解決するために,提案するPRIS(Prompt Redesign for Inference-time Scaling)というフレームワークを提案する。
PRISの中核となる考え方は、生成された視覚をレビューし、視覚にまたがる繰り返し発生する障害パターンを特定し、修正されたプロンプトで視覚を再生する前にプロンプトを再設計することである。
即時修正のための高精度なアライメントフィードバックを実現するため,我々は,新たな検証手法である要素レベルの事実補正を導入し,アプライアンス属性と生成した視覚とのアライメントをきめ細かなレベルで評価し,包括的尺度よりも正確で解釈可能な評価を実現する。
VBench 2.0に対する15%の利得を含む,テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークによる大規模な実験により,我々のアプローチの有効性が示された。
これらの結果は、推論時にスケーリング法則を完全に活用する上で、共同スケーリングプロンプトとビジュアルが重要であることを強調している。
可視化はWebサイト(https://subin-kim-cv.github.io/PRIS)で公開されている。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models [28.983503845298824]
合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。
視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。
本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-03T12:23:33Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。