論文の概要: CyCLeGen: Cycle-Consistent Layout Prediction and Image Generation in Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2603.14957v1
- Date: Mon, 16 Mar 2026 08:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.150958
- Title: CyCLeGen: Cycle-Consistent Layout Prediction and Image Generation in Vision Foundation Models
- Title(参考訳): CyCLeGen:ビジョンファウンデーションモデルにおけるサイクル一貫性レイアウト予測と画像生成
- Authors: Xiaojun Shan, Haoyu Shen, Yucheng Mao, Xiang Zhang, Abhay Anand, Bingnan Li, Haiyang Xu, Zhuowen Tu,
- Abstract要約: CyCLeGenは、イメージ理解と画像生成の両方が可能な統合視覚言語基盤モデルである。
我々は、CyCLeGenが様々な画像理解と生成ベンチマークで大きな利益を得ることを示す。
- 参考スコア(独自算出の注目度): 28.537814221925213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present CyCLeGen, a unified vision-language foundation model capable of both image understanding and image generation within a single autoregressive framework. Unlike existing vision models that depend on separate modules for perception and synthesis, CyCLeGen adopts a fully integrated architecture that enforces cycle-consistent learning through image->layout->image and layout->image->layout generation loops. This unified formulation introduces two key advantages: introspection, enabling the model to reason about its own generations, and data efficiency, allowing self-improvement via synthetic supervision under a reinforcement learning objective guided by cycle consistency. Extensive experiments show that CyCLeGen achieves significant gains across diverse image understanding and generation benchmarks, highlighting the potential of unified vision-language foundation models.
- Abstract(参考訳): 本稿では,CyCLeGenについて述べる。CyCLeGenは,単一の自己回帰フレームワーク内で画像理解と画像生成を両立可能な統合視覚言語基盤モデルである。
知覚と合成の別々のモジュールに依存する既存のビジョンモデルとは異なり、CyCLeGenは、イメージ->レイアウト->イメージとレイアウト->イメージ->レイアウト生成ループによるサイクル一貫性学習を強制する完全に統合されたアーキテクチャを採用している。
この統一された定式化は、イントロスペクション(introspection)という2つの重要な利点を導入し、モデルが自身の世代を推論できるようにし、サイクル整合性によって導かれる強化学習目標の下で、合成監督による自己改善を可能にする。
大規模な実験により、CyCLeGenは多様なイメージ理解と生成ベンチマークで大きな成果を上げており、統合されたビジョンベース基盤モデルの可能性を強調している。
関連論文リスト
- Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Pisces: An Auto-regressive Foundation Model for Image Understanding and Generation [81.92275347127833]
統一モデルを開発する上で重要な課題は、画像理解に必要な視覚的特徴と生成の相違にある。
本稿では,この課題に対処する自動回帰型マルチモーダル基盤モデルであるPiscesを紹介する。
微妙なデータキュレーション、事前学習、微調整と組み合わせることで、ピッセは画像理解と画像生成の両方において競合する性能を達成する。
論文 参考訳(メタデータ) (2025-06-12T06:37:34Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - VILA-U: a Unified Foundation Model Integrating Visual Understanding and Generation [45.52926475981602]
VILA-Uは、ビデオ、画像、言語理解、生成を統合する統一基盤モデルである。
VILA-Uは、両方のタスクに1つの自動回帰的な次世代予測フレームワークを使用している。
論文 参考訳(メタデータ) (2024-09-06T17:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。