論文の概要: CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation
- arxiv url: http://arxiv.org/abs/2603.08652v1
- Date: Mon, 09 Mar 2026 17:31:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.610052
- Title: CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation
- Title(参考訳): CoCo:テキストから画像へのプレビューとレアコンセプト生成のためのコード・アズ・CoT
- Authors: Haodong Li, Chunmei Qing, Huanyu Zhang, Dongzhi Jiang, Yihang Zou, Hongbo Peng, Dingming Li, Yuhong Dai, ZePeng Lin, Juanxi Tian, Yi Zhou, Siqi Dai, Jingwei Wu,
- Abstract要約: コード駆動推論フレームワークであるCoCo(Code-as-CoT)を提案する。
テキストプロンプトが与えられた後、CoCoは最初にシーンの構造レイアウトを指定する実行可能なコードを生成し、サンドボックス環境で実行され、決定論的ドラフト画像を表示する。
このモデルはその後、微細な画像編集によってこのドラフトを洗練し、最終的な高忠実度結果を生成する。
- 参考スコア(独自算出の注目度): 17.789454097040366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Unified Multimodal Models (UMMs) have significantly advanced text-to-image (T2I) generation, particularly through the integration of Chain-of-Thought (CoT) reasoning. However, existing CoT-based T2I methods largely rely on abstract natural-language planning, which lacks the precision required for complex spatial layouts, structured visual elements, and dense textual content. In this work, we propose CoCo (Code-as-CoT), a code-driven reasoning framework that represents the reasoning process as executable code, enabling explicit and verifiable intermediate planning for image generation. Given a text prompt, CoCo first generates executable code that specifies the structural layout of the scene, which is then executed in a sandboxed environment to render a deterministic draft image. The model subsequently refines this draft through fine-grained image editing to produce the final high-fidelity result. To support this training paradigm, we construct CoCo-10K, a curated dataset containing structured draft-final image pairs designed to teach both structured draft construction and corrective visual refinement. Empirical evaluations on StructT2IBench, OneIG-Bench, and LongText-Bench show that CoCo achieves improvements of +68.83%, +54.8%, and +41.23% over direct generation, while also outperforming other generation methods empowered by CoT. These results demonstrate that executable code is an effective and reliable reasoning paradigm for precise, controllable, and structured text-to-image generation. The code is available at: https://github.com/micky-li-hd/CoCo
- Abstract(参考訳): 最近のUMM(Unified Multimodal Models)の進歩は、特にCoT(Chain-of-Thought)推論の統合によって、T2I(Text-to-image)生成が著しく進歩している。
しかし、既存のCoTベースのT2I手法は、複雑な空間配置、構造化された視覚要素、高密度テキストコンテンツに必要な精度に欠ける抽象的な自然言語プランニングに大きく依存している。
本研究では,コード駆動推論フレームワークであるCoCo(Code-as-CoT)を提案する。
テキストプロンプトが与えられた後、CoCoはまずシーンの構造的レイアウトを指定する実行可能なコードを生成し、サンドボックス環境で実行され、決定論的ドラフト画像を表示する。
このモデルはその後、微細な画像編集によってこのドラフトを洗練し、最終的な高忠実度結果を生成する。
このトレーニングパラダイムをサポートするために、構造化されたドラフト-ファイナルイメージペアを含むキュレートデータセットであるCoCo-10Kを構築し、構造化されたドラフト構築と修正されたビジュアルリファインメントの両方を教える。
StructT2IBench、OneIG-Bench、LongText-Benchの実証的な評価によると、CoCoは直接発生よりも+68.83%、+54.8%、+41.23%向上し、CoTによって強化された他の生成方法よりも優れている。
これらの結果は、実行可能コードは正確で制御可能で構造化された画像生成のための効果的で信頼性の高い推論パラダイムであることを示している。
コードは、https://github.com/micky-li-hd/CoCoで入手できる。
関連論文リスト
- DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation [69.69738832428543]
DraCo(DraCo)は,テキスト・ツー・イメージ生成を向上するための新たなインターリーブな推論パラダイムである。
提案手法はまず,低解像度のドラフト画像をプレビューとして生成し,より具体的で構造的な視覚計画とガイダンスを提供する。
DraCoがGenEval(+8%)、Imagine-Bench(+0.91)、GenEval++(+3%)の大幅な増加を実現
論文 参考訳(メタデータ) (2025-12-04T18:59:53Z) - Completion by Comprehension: Guiding Code Generation with Multi-Granularity Understanding [37.78627994991325]
CoCoは、大規模なコードリポジトリから複数の粒度コンテキストでコード補完を可能にする新しいフレームワークである。
CrossCodeEvalとRepoEvalベンチマークの実験は、CoCoが最先端のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-04T07:37:59Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - ImageGen-CoT: Enhancing Text-to-Image In-context Learning with Chain-of-Thought Reasoning [89.19449553099747]
テキスト・ツー・イメージ・インコンテキスト・ラーニング(T2I-ICL)の問題点について検討する。
本稿では、画像生成に先立って、ImageGen-CoTと呼ばれる思考プロセスを組み込んだフレームワークを提案する。
このデータセットを用いてMLLMを微調整し、文脈推論能力を向上する。
論文 参考訳(メタデータ) (2025-03-25T03:18:46Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - CoBIT: A Contrastive Bi-directional Image-Text Generation Model [72.1700346308106]
CoBITは、新しいユニコーダ・デコーダ構造を採用しており、これは1つのフレームワークで3つの事前学習対象を統一しようとするものである。
CoBITは画像理解、画像テキスト理解(検索、キャプション、VQA、SNLI-VE)、テキストベースのコンテンツ生成、特にゼロショットシナリオにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-23T17:24:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。