論文の概要: GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows
- arxiv url: http://arxiv.org/abs/2603.12155v1
- Date: Thu, 12 Mar 2026 16:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.233556
- Title: GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows
- Title(参考訳): GlyphBanana: エージェントワークフローによる精密テキストレンダリングの改善
- Authors: Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang,
- Abstract要約: 複雑な文字や公式を生成するためにGlyphBananaを導入します。
トレーニング不要のアプローチは、さまざまなテキスト・ツー・イメージ(T2I)モデルにシームレスに適用できます。
- 参考スコア(独自算出の注目度): 28.96965968590257
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite recent advances in generative models driving significant progress in text rendering, accurately generating complex text and mathematical formulas remains a formidable challenge. This difficulty primarily stems from the limited instruction-following capabilities of current models when encountering out-of-distribution prompts. To address this, we introduce GlyphBanana, alongside a corresponding benchmark specifically designed for rendering complex characters and formulas. GlyphBanana employs an agentic workflow that integrates auxiliary tools to inject glyph templates into both the latent space and attention maps, facilitating the iterative refinement of generated images. Notably, our training-free approach can be seamlessly applied to various Text-to-Image (T2I) models, achieving superior precision compared to existing baselines. Extensive experiments demonstrate the effectiveness of our proposed workflow. Associated code is publicly available at https://github.com/yuriYanZeXuan/GlyphBanana.
- Abstract(参考訳): 近年の生成モデルの発展によりテキストレンダリングが大幅に進歩したにもかかわらず、複雑なテキストや数学的公式を正確に生成することは、非常に難しい課題である。
この難しさは、アウト・オブ・ディストリビューションのプロンプトに遭遇する際の現在のモデルの命令追従能力の制限に起因する。
これに対処するために、GlyphBananaと、複雑な文字や公式のレンダリング用に設計された、対応するベンチマークを紹介する。
GlyphBananaはエージェントワークフローを使用して、グリフテンプレートを潜在空間と注意マップの両方に注入する補助ツールを統合し、生成された画像の反復的な洗練を容易にする。
特に、トレーニング不要のアプローチは、様々なテキスト・ツー・イメージ(T2I)モデルにシームレスに適用でき、既存のベースラインと比較して精度が高い。
大規模な実験によって提案したワークフローの有効性が実証された。
関連コードはhttps://github.com/yuriYanZeXuan/GlyphBanana.comで公開されている。
関連論文リスト
- Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation [87.39861573270173]
本稿では,各ユーザプロンプトに自動的にワークフローをカスタマイズすることを目的とする,プロンプト適応型ワークフロー生成の新しいタスクを紹介する。
本稿では,この課題に対処する2つの LLM ベースの手法を提案する。ユーザ・参照データから学習するチューニングベース手法と,既存のフローを選択するために LLM を使用するトレーニングフリー手法である。
本研究は,現場における既存研究の方向性を補完し,テキスト・画像生成の品質向上のための新たな経路を提供することを示す。
論文 参考訳(メタデータ) (2024-10-02T16:43:24Z) - Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - GlyphControl: Glyph Conditional Control for Visual Text Generation [23.11989365761579]
我々はGlyphControlという新しい効率的な手法を提案し、コヒーレントでよく表現されたビジュアルテキストを生成する。
glyph命令を組み込むことで、ユーザーは特定の要求に応じて生成されたテキストの内容、場所、サイズをカスタマイズできる。
GlyphControlはOCR精度,CLIPスコア,FIDにおいて,最近のDeepFloyd IFアプローチよりも優れていた。
論文 参考訳(メタデータ) (2023-05-29T17:27:59Z) - Unsupervised Training Data Generation of Handwritten Formulas using
Generative Adversarial Networks with Self-Attention [3.785514121306353]
本稿では,文書から派生した数学的表現の大規模な学習例を作成するシステムを提案する。
そこで本研究では, 適応方程式を手書き公式に翻訳する, 注目に基づく新たな生成逆ネットワークを提案する。
このアプローチによって生成されたデータセットには何十万もの公式が含まれており、より複雑なモデルの設計や事前訓練に最適である。
論文 参考訳(メタデータ) (2021-06-17T12:27:18Z) - Neural Language Modeling for Contextualized Temporal Graph Generation [49.21890450444187]
本稿では,大規模事前学習言語モデルを用いた文書のイベントレベル時間グラフの自動生成に関する最初の研究について述べる。
論文 参考訳(メタデータ) (2020-10-20T07:08:00Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。