論文の概要: CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2601.10061v1
- Date: Thu, 15 Jan 2026 04:33:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:18.986661
- Title: CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
- Title(参考訳): CoF-T2I:テキスト・ツー・イメージ生成のための純粋視覚共振器としての映像モデル
- Authors: Chengzhuo Tong, Mingkun Chang, Shenglong Zhang, Yuran Wang, Cheng Liang, Zhizheng Zhao, Ruichuan An, Bohan Zeng, Yang Shi, Yifan Dai, Ziming Zhao, Guanbin Li, Pengfei Wan, Yuanxing Zhang, Wentao Zhang,
- Abstract要約: Chain-of-Frame(CoF)推論はフレーム単位の視覚的推論を可能にする。
CoF-T2Iは、プログレッシブ・ビジュアル・リファインメントによるテキスト・ツー・イメージ(T2I)生成にCoF推論を統合する。
実験の結果、CoF-T2Iはベースビデオモデルよりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 52.0601996237501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video generation models have revealed the emergence of Chain-of-Frame (CoF) reasoning, enabling frame-by-frame visual inference. With this capability, video models have been successfully applied to various visual tasks (e.g., maze solving, visual puzzles). However, their potential to enhance text-to-image (T2I) generation remains largely unexplored due to the absence of a clearly defined visual reasoning starting point and interpretable intermediate states in the T2I generation process. To bridge this gap, we propose CoF-T2I, a model that integrates CoF reasoning into T2I generation via progressive visual refinement, where intermediate frames act as explicit reasoning steps and the final frame is taken as output. To establish such an explicit generation process, we curate CoF-Evol-Instruct, a dataset of CoF trajectories that model the generation process from semantics to aesthetics. To further improve quality and avoid motion artifacts, we enable independent encoding operation for each frame. Experiments show that CoF-T2I significantly outperforms the base video model and achieves competitive performance on challenging benchmarks, reaching 0.86 on GenEval and 7.468 on Imagine-Bench. These results indicate the substantial promise of video models for advancing high-quality text-to-image generation.
- Abstract(参考訳): 最近のビデオ生成モデルは、フレームごとの視覚的推論を可能にする、フレームのチェーン・オブ・フレーム(CoF)推論の出現を明らかにしている。
この能力により、ビデオモデルは様々な視覚的タスク(例えば、迷路解決、視覚パズル)にうまく適用されている。
しかし、T2I生成プロセスにおいて、明確に定義された視覚的推論開始点と解釈可能な中間状態が存在しないため、テキスト・トゥ・イメージ(T2I)生成を向上する可能性はほとんど解明されていない。
このギャップを埋めるために、CoF推論をプログレッシブ・ビジュアル・リファインメントによりT2I生成に統合するモデルであるCoF-T2Iを提案する。
このような明示的な生成過程を確立するために,意味論から美学まで生成過程をモデル化したCoFトラジェクトリのデータセットであるCoF-Evol-Instructをキュレートする。
品質の向上と動作アーチファクトの回避を目的として,各フレームの独立符号化操作を実現する。
実験の結果、CoF-T2Iはベースビデオモデルを大幅に上回り、挑戦的なベンチマークで競争性能を発揮し、GenEvalで0.86、Imagine-Benchで7.468に達した。
これらの結果から,高品質なテキスト・ツー・イメージ・ジェネレーションを実現するためのビデオモデルの実現の可能性が示唆された。
関連論文リスト
- VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - Factorized Video Generation: Decoupling Scene Construction and Temporal Synthesis in Text-to-Video Diffusion Models [76.7535001311919]
State-of-the-the-art Text-to-Video (T2V)拡散モデルは視覚的に印象的な結果を生成することができるが、複雑なシーンを作成したり、論理的時間的指示に従うのに失敗することが多い。
テキスト・ツー・ビデオ・ジェネレーションを3つの特殊ステージに分解することでこれらのタスクを分離するパイプラインであるFVGを紹介した。
提案手法は,T2V CompBench ベンチマークに新たな最先端技術を導入し,VBench2 上でのテストモデルすべてを大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T10:10:45Z) - Towards Enhanced Image Generation Via Multi-modal Chain of Thought in Unified Generative Models [52.84391764467939]
統一生成モデルは、テキストおよび画像生成において顕著な性能を示した。
複雑な画像生成の課題に対処するために、思考の連鎖(CoT)を統一生成モデルに導入する。
実験により、FoXは様々なT2Iベンチマークで既存の統一モデルよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-03-03T08:36:16Z) - STIV: Scalable Text and Image Conditioned Video Generation [82.6516473906985]
本稿では,STIVという,シンプルでスケーラブルなテキスト画像条件付きビデオ生成手法を提案する。
本フレームワークは,テキストコンディショニングを取り入れつつ,フレーム交換による拡散変換器(DiT)に画像条件を統合する。
STIVは、ビデオ予測、フレーム、マルチビュー生成、長いビデオ生成など、様々なアプリケーションに容易に拡張できる。
論文 参考訳(メタデータ) (2024-12-10T18:27:06Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。