論文の概要: Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation
- arxiv url: http://arxiv.org/abs/2604.18168v1
- Date: Mon, 20 Apr 2026 12:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.860185
- Title: Extending One-Step Image Generation from Class Labels to Text via Discriminative Text Representation
- Title(参考訳): 識別的テキスト表現によるクラスラベルからテキストへのワンステップ画像生成
- Authors: Chenxi Zhao, Chen Zhu, Xiaokun Feng, Aiming Hao, Jiashu Zhu, Jiachen Lei, Jiahong Wu, Xiangxiang Chu, Jufeng Yang,
- Abstract要約: テキスト条件付きMeanFlow生成プロセスを初めて開発する。
従来のトレーニング戦略を用いた強力なテキストエンコーダの統合は、満足のいくパフォーマンスをもたらす。
この研究が、テキスト条件のMeanFlow生成に関する将来の研究に、汎用的で実用的なリファレンスを提供してくれることを願っている。
- 参考スコア(独自算出の注目度): 37.78791777901399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-step generation has been a long-standing goal, with recent one-step generation methods exemplified by MeanFlow achieving remarkable results. Existing research on MeanFlow primarily focuses on class-to-image generation. However, an intuitive yet unexplored direction is to extend the condition from fixed class labels to flexible text inputs, enabling richer content creation. Compared to the limited class labels, text conditions pose greater challenges to the model's understanding capability, necessitating the effective integration of powerful text encoders into the MeanFlow framework. Surprisingly, although incorporating text conditions appears straightforward, we find that integrating powerful LLM-based text encoders using conventional training strategies results in unsatisfactory performance. To uncover the underlying cause, we conduct detailed analyses and reveal that, due to the extremely limited number of refinement steps in the MeanFlow generation, such as only one step, the text feature representations are required to possess sufficiently high discriminability. This also explains why discrete and easily distinguishable class features perform well within the MeanFlow framework. Guided by these insights, we leverage a powerful LLM-based text encoder validated to possess the required semantic properties and adapt the MeanFlow generation process to this framework, resulting in efficient text-conditioned synthesis for the first time. Furthermore, we validate our approach on the widely used diffusion model, demonstrating significant generation performance improvements. We hope this work provides a general and practical reference for future research on text-conditioned MeanFlow generation. The code is available at https://github.com/AMAP-ML/EMF.
- Abstract(参考訳): MeanFlowによって実証された最近のワンステップ生成手法により、目覚ましい結果が得られた。
MeanFlowに関する既存の研究は、主にクラス・ツー・イメージ生成に焦点を当てている。
しかし、直感的で探索されていない方向性は、条件を固定されたクラスラベルから柔軟なテキスト入力に拡張し、よりリッチなコンテンツ作成を可能にすることである。
限られたクラスラベルと比較して、テキスト条件はモデルの理解能力に大きな課題をもたらし、強力なテキストエンコーダをMeanFlowフレームワークに統合する必要がある。
意外なことに、テキスト条件の組み込みは簡単に見えるが、従来のトレーニング戦略を用いた強力なLLMベースのテキストエンコーダの統合は、満足のいくパフォーマンスをもたらす。
原因を明らかにするために,本研究では,MeanFlow 世代における改良段階が極めて限られているため,テキスト特徴表現が十分に高い識別性を持つことが求められている。
これはまた、MeanFlowフレームワーク内で、分別的で容易に識別可能なクラス機能がうまく機能する理由を説明する。
これらの知見に導かれて,必要な意味的特性を持つことが検証された強力なLCMベースのテキストエンコーダを活用し,MeanFlow生成プロセスをこのフレームワークに適応させることで,テキスト条件の効率的な合成を初めて実現した。
さらに,広範に利用されている拡散モデルに対して,本手法の有効性を検証し,生成性能の大幅な向上を実証した。
この研究が、テキスト条件のMeanFlow生成に関する将来の研究に、汎用的で実用的なリファレンスを提供してくれることを願っている。
コードはhttps://github.com/AMAP-ML/EMFで公開されている。
関連論文リスト
- Flow of Spans: Generalizing Language Models to Dynamic Span-Vocabulary via GFlowNets [54.06320619464273]
Flow of SpanS (FOSS)は、スパンジェネレーションのための原則化されたGFlowNetsフレームワークである。
FOSSは、取得したテキストを柔軟にセグメント化することで動的スパン語彙を構築する。
特殊な報酬モデルにより、FoSSは多種多様な高品質のテキストを生成する。
論文 参考訳(メタデータ) (2026-02-11T07:17:41Z) - OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows [59.052955667723985]
可変長および同時混合モード生成が可能な最初の非自己回帰型マルチモーダルモデルであるOneFlowを提案する。
テキストと画像生成の間の厳格な因果順序を強制する自己回帰モデルとは異なり、OneFlowは個別のテキストトークンに対する挿入ベースのEdit Flowと、画像潜伏者のためのFlow Matchingを組み合わせる。
論文 参考訳(メタデータ) (2025-10-03T20:40:30Z) - Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [3.9914181590063884]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。