論文の概要: Loom: Diffusion-Transformer for Interleaved Generation
- arxiv url: http://arxiv.org/abs/2512.18254v1
- Date: Sat, 20 Dec 2025 07:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.256427
- Title: Loom: Diffusion-Transformer for Interleaved Generation
- Title(参考訳): Loom: インターリーブジェネレーション用拡散変圧器
- Authors: Mingcheng Ye, Jiaming Liu, Yiren Song,
- Abstract要約: インターリーブされたテキスト画像生成は、単一のシーケンス内でコヒーレントなビジュアルフレームと整列したテキスト記述を共同で生成することを目的としている。
我々は、インターリーブされたテキスト画像生成のための統合拡散変換フレームワークであるLoomを提案する。
- 参考スコア(独自算出の注目度): 17.092197559386463
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Interleaved text-image generation aims to jointly produce coherent visual frames and aligned textual descriptions within a single sequence, enabling tasks such as style transfer, compositional synthesis, and procedural tutorials. We present Loom, a unified diffusion-transformer framework for interleaved text-image generation. Loom extends the Bagel unified model via full-parameter fine-tuning and an interleaved architecture that alternates textual and visual embeddings for multi-condition reasoning and sequential planning. A language planning strategy first decomposes a user instruction into stepwise prompts and frame embeddings, which guide temporally consistent synthesis. For each frame, Loom conditions on a small set of sampled prior frames together with the global textual context, rather than concatenating all history, yielding controllable and efficient long-horizon generation. Across style transfer, compositional generation, and tutorial-like procedures, Loom delivers superior compositionality, temporal coherence, and text-image alignment. Experiments demonstrate that Loom substantially outperforms the open-source baseline Anole, achieving an average gain of 2.6 points (on a 5-point scale) across temporal and semantic metrics in text-to-interleaved tasks. We also curate a 50K interleaved tutorial dataset and demonstrate strong improvements over unified and diffusion editing baselines.
- Abstract(参考訳): Interleaved Text-image Generation は、一列でコヒーレントなビジュアルフレームと整列したテキスト記述を共同で生成することを目的としており、スタイル転送、合成合成、手続き的チュートリアルなどのタスクを可能にする。
我々は、インターリーブされたテキスト画像生成のための統合拡散変換フレームワークであるLoomを提案する。
Loomは、多条件推論とシーケンシャルプランニングのためにテキストと視覚の埋め込みを交換するインターリーブアーキテクチャとフルパラメータの微調整によって、ベーゲル統一モデルを拡張している。
言語計画戦略は、まずユーザー命令を段階的にプロンプトとフレーム埋め込みに分解し、時間的に一貫した合成を導く。
各フレームについて、Loom条件は、すべての履歴をまとめるのではなく、グローバルなテキストコンテキストとともにサンプル化された前の小さなフレームのセットに置かれ、制御可能で効率的なロングホライゾン生成をもたらす。
スタイルの転送、作曲生成、チュートリアルのような手順で、Loomは優れた構成性、時間的コヒーレンス、テキストイメージアライメントを提供する。
実験の結果、LoomはオープンソースのベースラインであるAnoleを著しく上回り、テキストからインターリーブされたタスクにおける時間的および意味的なメトリクスで平均2.6ポイント(5ポイントスケール)を達成した。
また、50Kのインターリーブされたチュートリアルデータセットをキュレートし、統一および拡散編集ベースラインよりも強力な改善点を示す。
関連論文リスト
- Text-Conditioned Background Generation for Editable Multi-Layer Documents [32.896370365677136]
マルチページ編集とテーマ連続性を備えた文書中心の背景生成のためのフレームワークを提案する。
トレーニング不要なフレームワークは、視覚的に一貫性のあるテキスト保存ドキュメントを生成し、自然な設計による生成モデリングをブリッジする。
論文 参考訳(メタデータ) (2025-12-19T01:10:24Z) - Geometric Disentanglement of Text Embeddings for Subject-Consistent Text-to-Image Generation using A Single Prompt [14.734857939203811]
主観的視点から意味的絡み合いに対処する学習自由アプローチを提案する。
提案手法は既存のベースラインに対する主観的一貫性とテキストアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2025-12-18T11:55:06Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。