論文の概要: Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models
- arxiv url: http://arxiv.org/abs/2512.11542v1
- Date: Fri, 12 Dec 2025 13:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.778593
- Title: Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models
- Title(参考訳): 無限大と超越:VARと拡散T2Iモデルにおける組成アライメント
- Authors: Hossein Shahabadi, Niki Sepasian, Arash Marioriyad, Ali Sharifi-Zarchi, Mahdieh Soleymani Baghshah,
- Abstract要約: 6種類のテキスト・ツー・イメージ・システム(T2I)をベンチマークする。
我々は,色と属性の結合,空間関係,数理性,複雑な多目的プロンプトのアライメントを評価する。
SDXLとPixArt-$$は、属性に敏感な空間的タスクにおいて永続的な弱点を示す。
- 参考スコア(独自算出の注目度): 8.72752668537241
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Achieving compositional alignment between textual descriptions and generated images - covering objects, attributes, and spatial relationships - remains a core challenge for modern text-to-image (T2I) models. Although diffusion-based architectures have been widely studied, the compositional behavior of emerging Visual Autoregressive (VAR) models is still largely unexamined. We benchmark six diverse T2I systems - SDXL, PixArt-$α$, Flux-Dev, Flux-Schnell, Infinity-2B, and Infinity-8B - across the full T2I-CompBench++ and GenEval suites, evaluating alignment in color and attribute binding, spatial relations, numeracy, and complex multi-object prompts. Across both benchmarks, Infinity-8B achieves the strongest overall compositional alignment, while Infinity-2B also matches or exceeds larger diffusion models in several categories, highlighting favorable efficiency-performance trade-offs. In contrast, SDXL and PixArt-$α$ show persistent weaknesses in attribute-sensitive and spatial tasks. These results provide the first systematic comparison of VAR and diffusion approaches to compositional alignment and establish unified baselines for the future development of the T2I model.
- Abstract(参考訳): テキスト記述と生成された画像(オブジェクト、属性、空間的関係を含む)のコンポジションアライメントを達成することは、現代のテキスト・ツー・イメージ(T2I)モデルにおいて、依然として重要な課題である。
拡散型アーキテクチャは広く研究されているが、新しいVisual Autoregressive(VAR)モデルの構成的挙動はいまだに未検討である。
SDXL, PixArt-$α$, Flux-Dev, Flux-Schnell, Infinity-2B, Infinity-8B – T2I-CompBench++とGenEvalスイートの6つの多様なT2Iシステムをベンチマークし,色と属性の結合, 空間関係, 数値性, 複雑多目的プロンプトの整合性を評価する。
両方のベンチマークで、Infinity-8Bは最も高い総合的なコンポジションアライメントを達成する一方、Infinity-2Bはいくつかのカテゴリでより大きな拡散モデルに適合または超える。
対照的に、SDXL と PixArt-$α$ は属性感受性および空間的タスクにおいて永続的な弱点を示す。
これらの結果は,合成アライメントに対するVARと拡散アプローチの体系的比較を行い,今後のT2Iモデル開発のための統一ベースラインを確立する。
関連論文リスト
- DeCoT: Decomposing Complex Instructions for Enhanced Text-to-Image Generation with Large Language Models [9.800887055353096]
本稿では,T2Iモデルの複雑な命令の理解と実行を強化するフレームワークであるDeCoT(Decomposition-CoT)を提案する。
LongBench-T2Iデータセットの大規模な実験は、DeCoTが一貫し、主要なT2Iモデルの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-08-17T15:15:39Z) - CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。