論文の概要: Synthetic Curriculum Reinforces Compositional Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2511.18378v1
- Date: Sun, 23 Nov 2025 09:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.808887
- Title: Synthetic Curriculum Reinforces Compositional Text-to-Image Generation
- Title(参考訳): 合成カリキュラムによる合成テキスト・画像生成の強化
- Authors: Shijian Wang, Runhao Fu, Siyi Zhao, Qingqin Zhan, Xingjian Wang, Jiarui Jin, Yuan Lu, Hanqian Wu, Cunjian Chen,
- Abstract要約: CompGen という新しい構成カリキュラム強化学習フレームワークを提案する。
シーングラフを利用して、合成能力のための新しい難易度基準を確立し、対応するマルコフ連鎖モンテカルログラフサンプリングアルゴリズムを開発する。
実験の結果、CompGenは異なるカリキュラムスケジューリング戦略の下で異なるスケーリング曲線を示すことがわかった。
- 参考スコア(独自算出の注目度): 8.547259329102227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) generation has long been an open problem, with compositional synthesis remaining particularly challenging. This task requires accurate rendering of complex scenes containing multiple objects that exhibit diverse attributes as well as intricate spatial and semantic relationships, demanding both precise object placement and coherent inter-object interactions. In this paper, we propose a novel compositional curriculum reinforcement learning framework named CompGen that addresses compositional weakness in existing T2I models. Specifically, we leverage scene graphs to establish a novel difficulty criterion for compositional ability and develop a corresponding adaptive Markov Chain Monte Carlo graph sampling algorithm. This difficulty-aware approach enables the synthesis of training curriculum data that progressively optimize T2I models through reinforcement learning. We integrate our curriculum learning approach into Group Relative Policy Optimization (GRPO) and investigate different curriculum scheduling strategies. Our experiments reveal that CompGen exhibits distinct scaling curves under different curriculum scheduling strategies, with easy-to-hard and Gaussian sampling strategies yielding superior scaling performance compared to random sampling. Extensive experiments demonstrate that CompGen significantly enhances compositional generation capabilities for both diffusion-based and auto-regressive T2I models, highlighting its effectiveness in improving the compositional T2I generation systems.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)生成は長い間オープンな問題であり、特に合成は困難である。
このタスクは、多様な属性を示す複数のオブジェクトを含む複雑なシーンの正確なレンダリングと、複雑な空間的および意味的な関係、そして、正確なオブジェクト配置とコヒーレントなオブジェクト間相互作用の両方を必要とする。
本稿では,既存のT2Iモデルの構成弱点に対処する,CompGenという新しい構成カリキュラム強化学習フレームワークを提案する。
具体的には、シーングラフを活用して、合成能力の新たな難易度基準を確立し、対応するマルコフ連鎖モンテカルログラフサンプリングアルゴリズムを開発する。
この困難を意識したアプローチは、強化学習を通じてT2Iモデルを段階的に最適化する訓練カリキュラムデータの合成を可能にする。
我々は,カリキュラム学習アプローチをGRPO(Group Relative Policy Optimization)に統合し,異なるカリキュラムスケジューリング戦略について検討する。
実験の結果,CompGenは異なるカリキュラムスケジューリング戦略の下で異なるスケーリング曲線を示すことが明らかとなった。
広汎な実験により、CompGenは拡散ベースのT2Iモデルと自己回帰型T2Iモデルの両方の合成生成能力を著しく向上し、合成T2I生成システムの改善におけるその効果を強調した。
関連論文リスト
- LVLM-Composer's Explicit Planning for Image Generation [0.0]
LVLM-Composerは,合成画像の高機能化に特化して開発された新しい10ビリオンパラメータスケールLVLMである。
提案手法は,構造化された即時分解のための階層的セマンティック計画モジュールと,生成時の正確な視覚誘導のための細粒度特徴アライメント機構を組み込んだ。
Gemini-2.0-Flash と InternVL3-78B による自動評価を利用した LongBench-T2I ベンチマークの実験では、LVLM-Composer が重要な構成次元にわたって優れた性能を示した。
論文 参考訳(メタデータ) (2025-07-05T20:21:03Z) - AdaptGOT: A Pre-trained Model for Adaptive Contextual POI Representation Learning [7.277204616781735]
本稿では,Adaptive表現学習技術とGeographical-Co-Occurrence-Text表現を統合したAdaptGOTモデルを提案する。
アダプGOTモデルは、(1)KNN、密度ベース、重要度ベース、カテゴリー認識といった高度な混合サンプリング手法を統合して複雑なコンテキスト近傍を捕捉するコンテキスト近傍生成、(2)高品質でカスタマイズされた表現を導出し、POI間の複雑な相互関係を効率的に捉えるように設計された注意機構によって強化された高度なGOT表現、(3)位相整合性を保証するMoEベースの適応エンコーダ・デコーダアーキテクチャ、の3つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2025-06-21T08:06:06Z) - CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.836487514037994]
SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。
本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T10:52:27Z) - Multi-Task Curriculum Graph Contrastive Learning with Clustering Entropy Guidance [25.5510013711661]
本稿ではクラスタリング誘導型Curriculum Graph contrastive Learning(CCGL)フレームワークを提案する。
CCGLは以下のグラフ拡張とコントラスト学習のガイダンスとしてクラスタリングエントロピーを使用している。
実験の結果,CCGLは最先端の競合に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-22T02:18:47Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。