論文の概要: GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.15560v1
- Date: Wed, 17 Dec 2025 16:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.055453
- Title: GRAN-TED: Generating Robust, Aligned, and Nuanced Text Embedding for Diffusion Models
- Title(参考訳): GRAN-TED: 拡散モデルのためのロバスト、アラインドおよびニュアンステキストの埋め込みを生成する
- Authors: Bozhou Li, Sihan Yang, Yushuo Guan, Ruichuan An, Xinlong Chen, Yang Shi, Pengfei Wan, Wentao Zhang, Yuanxing zhang,
- Abstract要約: 本稿では,拡散モデルのためのロバスト,アラインド,およびアラインドテキストの埋め込みを生成するパラダイムであるGRAN-TEDを紹介する。
我々は,エンコーダの表現品質の効率的かつロバストな評価を可能にする,テキストのみのベンチマークであるTED-6Kを提案する。
新たな2段階学習パラダイムを用いた優れたテキストエンコーダを開発した。
- 参考スコア(独自算出の注目度): 20.650166688664115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The text encoder is a critical component of text-to-image and text-to-video diffusion models, fundamentally determining the semantic fidelity of the generated content. However, its development has been hindered by two major challenges: the lack of an efficient evaluation framework that reliably predicts downstream generation performance, and the difficulty of effectively adapting pretrained language models for visual synthesis. To address these issues, we introduce GRAN-TED, a paradigm to Generate Robust, Aligned, and Nuanced Text Embeddings for Diffusion models. Our contribution is twofold. First, we propose TED-6K, a novel text-only benchmark that enables efficient and robust assessment of an encoder's representational quality without requiring costly end-to-end model training. We demonstrate that performance on TED-6K, standardized via a lightweight, unified adapter, strongly correlates with an encoder's effectiveness in downstream generation tasks. Second, guided by this validated framework, we develop a superior text encoder using a novel two-stage training paradigm. This process involves an initial fine-tuning stage on a Multimodal Large Language Model for better visual representation, followed by a layer-wise weighting method to extract more nuanced and potent text features. Our experiments show that the resulting GRAN-TED encoder not only achieves state-of-the-art performance on TED-6K but also leads to demonstrable performance gains in text-to-image and text-to-video generation. Our code is available at the following link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
- Abstract(参考訳): テキストエンコーダは、テキスト・ツー・イメージとテキスト・ツー・ビデオ拡散モデルの重要なコンポーネントであり、生成したコンテンツのセマンティック・フィティリティを根本的に決定する。
しかし、その開発は、下流生成性能を確実に予測する効率的な評価フレームワークの欠如と、事前訓練された言語モデルを視覚合成に効果的に適用することの難しさの2つの大きな課題によって妨げられている。
これらの問題に対処するために、拡散モデルのためのロバスト、アラインドおよびニュアンスドテキスト埋め込みを生成するためのパラダイムであるGRAN-TEDを導入する。
私たちの貢献は2倍です。
まず,テキストのみのベンチマークであるTED-6Kを提案する。このベンチマークでは,エンコーダの表現品質を,コストのかかるエンドツーエンドモデルトレーニングを必要とせずに,効率的かつ堅牢に評価することができる。
ライトウェイトで統一されたアダプタによって標準化されたTED-6Kの性能は、下流生成タスクにおけるエンコーダの有効性と強く相関していることを示す。
第二に、この検証されたフレームワークにより、新しい2段階トレーニングパラダイムを用いた優れたテキストエンコーダを開発する。
このプロセスは、視覚的表現を改善するため、Multimodal Large Language Modelの最初の微調整段階と、よりニュアンスで強力なテキスト特徴を抽出するレイヤワイド重み付け手法を含む。
実験の結果,GRAN-TEDエンコーダはTED-6K上での最先端のパフォーマンスを実現するだけでなく,テキスト・ツー・イメージやテキスト・トゥ・ビデオ生成において,実証可能なパフォーマンス向上をもたらすことがわかった。
我々のコードは以下のリンクで利用可能である。
関連論文リスト
- Decoder-Only LLMs are Better Controllers for Diffusion Models [63.22040456010123]
本稿では,大規模言語モデルから意味理解の強みを借りて,テキストから画像への拡散モデルを強化することを提案する。
我々のアダプタモジュールは、テキストから画像への生成品質と信頼性の観点から、最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2025-02-06T12:17:35Z) - TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。
本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文 参考訳(メタデータ) (2024-03-27T19:52:55Z) - TEncDM: Understanding the Properties of the Diffusion Model in the Space of Language Model Encodings [35.18238858796925]
TEncDMは、事前訓練された言語モデルエンコーディングの空間で動作する拡散モデリングの新しいアプローチである。
このアプローチでは,トークン予測プロセスにコンテキストを組み込むように設計されたトランスフォーマーベースのデコーダも採用しています。
論文 参考訳(メタデータ) (2024-02-29T12:25:45Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - DiffuSIA: A Spiral Interaction Architecture for Encoder-Decoder Text
Diffusion [40.246665336996934]
エンコーダ-デコーダテキスト拡散(DiffuSIA)のためのスパイラル相互作用アーキテクチャを提案する。
DiffuSIAは、パラフレーズ、テキスト単純化、質問生成、オープンドメイン対話生成を含む4つのテキスト生成タスクで評価される。
論文 参考訳(メタデータ) (2023-05-19T08:30:11Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。