論文の概要: RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment
- arxiv url: http://arxiv.org/abs/2603.00483v1
- Date: Sat, 28 Feb 2026 05:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.220147
- Title: RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment
- Title(参考訳): RAISE:自由なテキスト・画像アライメントのための要求適応型進化的リファインメント
- Authors: Liyao Jiang, Ruichen Chen, Chao Gao, Di Niu,
- Abstract要約: 本稿では,適応型T2I生成のためのトレーニングフリーで要求駆動型進化フレームワークであるRAISEを紹介する。
RAISEは要求駆動適応スケーリングプロセスとして画像生成を定式化する。
GenEvalとDrawBenchでは、RAISEは最先端のアライメントを実現している。
- 参考スコア(独自算出の注目度): 37.59966317174412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image (T2I) diffusion models achieve remarkable realism, yet faithful prompt-image alignment remains challenging, particularly for complex prompts with multiple objects, relations, and fine-grained attributes. Existing training-free inference-time scaling methods rely on fixed iteration budgets that cannot adapt to prompt difficulty, while reflection-tuned models require carefully curated reflection datasets and extensive joint fine-tuning of diffusion and vision-language models, often overfitting to reflection paths data and lacking transferability across models. We introduce RAISE (Requirement-Adaptive Self-Improving Evolution), a training-free, requirement-driven evolutionary framework for adaptive T2I generation. RAISE formulates image generation as a requirement-driven adaptive scaling process, evolving a population of candidates at inference time through a diverse set of refinement actions-including prompt rewriting, noise resampling, and instructional editing. Each generation is verified against a structured checklist of requirements, enabling the system to dynamically identify unsatisfied items and allocate further computation only where needed. This achieves adaptive test-time scaling that aligns computational effort with semantic query complexity. On GenEval and DrawBench, RAISE attains state-of-the-art alignment (0.94 overall GenEval) while incurring fewer generated samples (reduced by 30-40%) and VLM calls (reduced by 80%) than prior scaling and reflection-tuned baselines, demonstrating efficient, generalizable, and model-agnostic multi-round self-improvement. Code is available at https://github.com/LiyaoJiang1998/RAISE.
- Abstract(参考訳): 最近のテキスト・ツー・イメージ拡散モデル(T2I)は、顕著なリアリズムを実現するが、特に複数のオブジェクト、関係、きめ細かい属性を持つ複雑なプロンプトに対しては、忠実なプロンプト・イメージアライメントは難しいままである。
既存のトレーニングフリーな推論時間スケーリング手法は、迅速な困難に適応できない固定されたイテレーション予算に依存しているが、リフレクションチューニングされたモデルは、慎重にキュレートされたリフレクションデータセットと、拡散と視覚言語モデルの広範囲な統合微調整を必要とし、しばしばリフレクションパスデータに過度に適合し、モデル間の転送性に欠ける。
RAISE(Requirement-Adaptive Self-Improving Evolution, Requirement-Adaptive Self-Improving Evolution)は、適応的なT2I生成のためのトレーニングフリーで要求駆動の進化フレームワークである。
RAISEは、画像生成を要件駆動の適応スケーリングプロセスとして定式化し、プロンプトリライト、ノイズリサンプリング、命令編集を含む様々な改良行動を通じて、推論時の候補の集団を進化させる。
各世代は要求の構造化されたチェックリストに対して検証され、システムは不満足な項目を動的に識別し、必要なときにのみさらなる計算を割り当てる。
これは、セマンティッククエリの複雑さと計算労力を一致させる適応的なテスト時間スケーリングを実現する。
GenEvalとDrawBenchでは、RAISEは最先端のアライメント(0.94全体GenEval)を達成しつつ、事前のスケーリングやリフレクションチューニングベースラインよりも少ない生成サンプル(30-40%削減)とVLMコール(80%削減)を発生させ、効率的で、一般化可能で、モデルに依存しないマルチラウンド自己改善を実現している。
コードはhttps://github.com/LiyaoJiang1998/RAISEで入手できる。
関連論文リスト
- RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling [59.088798018184235]
textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。
トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。
RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
論文 参考訳(メタデータ) (2025-10-23T04:45:09Z) - Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning [33.269644831847636]
画像適応型プロンプト学習(IAPL)は、学習後に修正するのではなく、各入力画像に応じてプロンプトを調整する新しいパラダイムである。
IAPLは、広く使われているUniversalFakeDetectとGenImageデータセットで95.61%と96.7%の精度で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-03T05:41:24Z) - Beyond Matryoshka: Revisiting Sparse Coding for Adaptive Representation [42.590255022001145]
Matryoshka Representation Learning (MRL) は適応的な埋め込み長のソリューションとして最近登場した。
スパース符号化は、最小限のオーバーヘッドと高い忠実度で適応表現を実現するための魅力的な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-03T17:59:48Z) - Diffusion Augmented Retrieval: A Training-Free Approach to Interactive Text-to-Image Retrieval [7.439049772394586]
Diffusion Augmented Retrieval (DAR)は、複数の中間表現を生成するフレームワークである。
DARの結果は微調整されたI-TIRモデルと同等だが、チューニングオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-01-26T03:29:18Z) - Towards Generalizable Trajectory Prediction Using Dual-Level Representation Learning And Adaptive Prompting [107.4034346788744]
既存の車両軌道予測モデルは、一般化可能性、予測の不確実性、複雑な相互作用を扱う。
本研究では,(1)自己拡張(SD)とマスドレコンストラクション(MR)による二重レベル表現学習,グローバルコンテキストと細部の詳細の収集,(2)レジスタベースのクエリと事前学習の強化,クラスタリングと抑圧の必要性の排除,(3)微調整中の適応型プロンプトチューニング,メインアーキテクチャの凍結,および少数のプロンプトの最適化といった,新たなトラジェクタ予測フレームワークであるPerceiverを提案する。
論文 参考訳(メタデータ) (2025-01-08T20:11:09Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - Efficient and Versatile Robust Fine-Tuning of Zero-shot Models [34.27380518351181]
本稿では、下流タスクにゼロショットモデルを微調整する新しい手法であるRobust Adapter(R-Adapter)を紹介する。
本手法は, 軽量モジュールを事前学習モデルに統合し, OODロバスト性を高め, 保存コストを大幅に削減するために, 新たな自己アンサンブル技術を用いる。
実験により,R-Adapterは,CLIPエンコーダのパラメータの13%をチューニングし,タスクのさまざまなセットで最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2024-08-11T11:37:43Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - Continual Adaptation for Deep Stereo [52.181067640300014]
本稿では,難易度と変化の激しい環境に対処するために,深層ステレオネットワークの継続的適応パラダイムを提案する。
我々のパラダイムでは、オンラインモデルに継続的に適応するために必要な学習信号は、右から左への画像ワープや従来のステレオアルゴリズムによって自己監督から得られる。
我々のネットワークアーキテクチャと適応アルゴリズムは、初めてのリアルタイム自己適応型ディープステレオシステムを実現する。
論文 参考訳(メタデータ) (2020-07-10T08:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。