論文の概要: Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models
- arxiv url: http://arxiv.org/abs/2512.11542v1
- Date: Fri, 12 Dec 2025 13:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.778593
- Title: Infinity and Beyond: Compositional Alignment in VAR and Diffusion T2I Models
- Title(参考訳): 無限大と超越:VARと拡散T2Iモデルにおける組成アライメント
- Authors: Hossein Shahabadi, Niki Sepasian, Arash Marioriyad, Ali Sharifi-Zarchi, Mahdieh Soleymani Baghshah,
- Abstract要約: 6種類のテキスト・ツー・イメージ・システム(T2I)をベンチマークする。
我々は,色と属性の結合,空間関係,数理性,複雑な多目的プロンプトのアライメントを評価する。
SDXLとPixArt-$$は、属性に敏感な空間的タスクにおいて永続的な弱点を示す。
- 参考スコア(独自算出の注目度): 8.72752668537241
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Achieving compositional alignment between textual descriptions and generated images - covering objects, attributes, and spatial relationships - remains a core challenge for modern text-to-image (T2I) models. Although diffusion-based architectures have been widely studied, the compositional behavior of emerging Visual Autoregressive (VAR) models is still largely unexamined. We benchmark six diverse T2I systems - SDXL, PixArt-$α$, Flux-Dev, Flux-Schnell, Infinity-2B, and Infinity-8B - across the full T2I-CompBench++ and GenEval suites, evaluating alignment in color and attribute binding, spatial relations, numeracy, and complex multi-object prompts. Across both benchmarks, Infinity-8B achieves the strongest overall compositional alignment, while Infinity-2B also matches or exceeds larger diffusion models in several categories, highlighting favorable efficiency-performance trade-offs. In contrast, SDXL and PixArt-$α$ show persistent weaknesses in attribute-sensitive and spatial tasks. These results provide the first systematic comparison of VAR and diffusion approaches to compositional alignment and establish unified baselines for the future development of the T2I model.
- Abstract(参考訳): テキスト記述と生成された画像(オブジェクト、属性、空間的関係を含む)のコンポジションアライメントを達成することは、現代のテキスト・ツー・イメージ(T2I)モデルにおいて、依然として重要な課題である。
拡散型アーキテクチャは広く研究されているが、新しいVisual Autoregressive(VAR)モデルの構成的挙動はいまだに未検討である。
SDXL, PixArt-$α$, Flux-Dev, Flux-Schnell, Infinity-2B, Infinity-8B – T2I-CompBench++とGenEvalスイートの6つの多様なT2Iシステムをベンチマークし,色と属性の結合, 空間関係, 数値性, 複雑多目的プロンプトの整合性を評価する。
両方のベンチマークで、Infinity-8Bは最も高い総合的なコンポジションアライメントを達成する一方、Infinity-2Bはいくつかのカテゴリでより大きな拡散モデルに適合または超える。
対照的に、SDXL と PixArt-$α$ は属性感受性および空間的タスクにおいて永続的な弱点を示す。
これらの結果は,合成アライメントに対するVARと拡散アプローチの体系的比較を行い,今後のT2Iモデル開発のための統一ベースラインを確立する。
関連論文リスト
- DeCoT: Decomposing Complex Instructions for Enhanced Text-to-Image Generation with Large Language Models [9.800887055353096]
本稿では,T2Iモデルの複雑な命令の理解と実行を強化するフレームワークであるDeCoT(Decomposition-CoT)を提案する。
LongBench-T2Iデータセットの大規模な実験は、DeCoTが一貫し、主要なT2Iモデルの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-08-17T15:15:39Z) - Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers [79.94246924019984]
マルチモーダル拡散変換器 (MM-DiT) はテキスト駆動型視覚生成において顕著な進歩を遂げている。
マルチモーダルインタラクションを動的に再バランスするパラメータ効率向上手法である textbfTemperature-Adjusted Cross-modal Attention (TACA) を提案する。
本研究は,テキスト・画像拡散モデルにおける意味的忠実度向上における相互注意のバランスの重要性を強調した。
論文 参考訳(メタデータ) (2025-06-09T17:54:04Z) - CompAlign: Improving Compositional Text-to-Image Generation with a Complex Benchmark and Fine-Grained Feedback [58.27353205269664]
最先端のT2Iモデルは、テキストプロンプトによって高解像度の画像を生成することができる。
しかし、複数の対象、属性、空間的関係を規定する構成的なシーンを正確に描写することは困難である。
我々は3次元空間的関係の描写を評価することに焦点を当てた、挑戦的なベンチマークであるCompAlignを紹介する。
論文 参考訳(メタデータ) (2025-05-16T12:23:58Z) - CoMPaSS: Enhancing Spatial Understanding in Text-to-Image Diffusion Models [18.89863162308386]
CoMPaSSはT2Iモデルにおける空間的理解を強化する汎用フレームワークである。
まずSCOP(Spatial Constraints-Oriented Pairing)データエンジンでデータのあいまいさに対処する。
これらの先行技術を活用するため、CoMPaSSはToken ENcoding ORdering (TENOR)モジュールも導入している。
論文 参考訳(メタデータ) (2024-12-17T18:59:50Z) - Progressive Compositionality in Text-to-Image Generative Models [26.877368922903514]
拡散モデルのコントラスト学習のための新しいカリキュラムであるEvoGenを提案する。
本研究では,大規模言語モデル(LLM)を活用し,現実的で複雑なシナリオを構成する。
また、VQA(Visual-Question Answering)システムと拡散モデルを用いて、コントラストデータセット(ConPair)を自動的にキュレートする。
論文 参考訳(メタデータ) (2024-10-22T05:59:29Z) - IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation [70.8833857249951]
IterCompは、複数のモデルから合成対応モデルの好みを集約する新しいフレームワークである。
クローズドループ方式で構成性を向上する反復的フィードバック学習法を提案する。
IterCompは、拡散モデルと合成生成のための報酬フィードバック学習の新たな研究の道を開く。
論文 参考訳(メタデータ) (2024-10-09T17:59:13Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation [0.0]
近年,拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げている。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,生成タスクを複数のサブタスクに分割する分割・コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。