論文の概要: StyleTextGen: Style-Conditioned Multilingual Scene Text Generation
- arxiv url: http://arxiv.org/abs/2605.14708v1
- Date: Thu, 14 May 2026 11:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.792842
- Title: StyleTextGen: Style-Conditioned Multilingual Scene Text Generation
- Title(参考訳): StyleTextGen: スタイル定義型多言語シーンテキスト生成
- Authors: Zeyu Chen, Fangmin Zhao, Yan Shu, Yichao Liu, Liu Yu, Yu Zhou,
- Abstract要約: StyleTextGenは、異なる言語や記述システムで視覚的なテキストスタイルを知覚し、複製することを学ぶ新しいフレームワークである。
まず、スタイルモデリング専用のデュアルブランチスタイルエンコーダを導入します。
第二に、スタイルコヒーレンスを高めるテキストスタイルの一貫性損失を設計する。
第3に、生成されたテキストと参照テキストの正確なスタイルアライメントを保証するマスク誘導型推論戦略を開発する。
- 参考スコア(独自算出の注目度): 19.235225130538794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Style-conditioned scene text generation faces unique challenges in extracting precise text styles from complex backgrounds and maintaining fine-grained style consistency across characters, especially for multilingual scripts. We propose StyleTextGen, a novel framework that learns to perceive and replicate visual text styles across different languages and writing systems. Our approach features three key contributions: First, we introduce a dual-branch style encoder dedicated to style modeling, yielding robust multilingual text style representations in complex real-world scenes. Second, we design a text style consistency loss that enhances style coherence and improves overall visual quality. Third, we develop a mask-guided inference strategy that ensures precise style alignment between generated and reference text. To facilitate systematic evaluation, we construct StyleText-CE, a bilingual scene text style benchmark covering both monolingual and cross-lingual settings. Extensive experiments demonstrate that StyleTextGen significantly outperforms existing methods in style consistency and cross-lingual generalization, establishing new state-of-the-art performance in multilingual style-conditioned text generation.
- Abstract(参考訳): スタイル条件付きシーンテキスト生成は、複雑な背景から正確なテキストスタイルを抽出し、特に多言語スクリプトにおいて、文字間のきめ細かいスタイル一貫性を維持するという、ユニークな課題に直面している。
そこで我々は,様々な言語や書記システムにまたがる視覚的テキストスタイルの認識と再現を学習する新しいフレームワークであるStyleTextGenを提案する。
まず、複雑な実世界のシーンにおいて、堅牢な多言語テキストスタイル表現をもたらすスタイルモデリング専用のデュアルブランチスタイルエンコーダを導入する。
第二に、スタイルの一貫性を高め、全体的な視覚的品質を改善するテキストスタイルの一貫性損失を設計する。
第3に、生成されたテキストと参照テキストの正確なスタイルアライメントを保証するマスク誘導型推論戦略を開発する。
システム評価を容易にするために,モノリンガルとクロスリンガルの両方の設定をカバーするバイリンガルシーンテキストスタイルベンチマークであるStyleText-CEを構築した。
広範囲にわたる実験により、スタイルTextGenはスタイル整合性と言語間一般化において既存のメソッドを著しく上回り、多言語スタイル条件のテキスト生成において新しい最先端のパフォーマンスを確立することが実証された。
関連論文リスト
- Enhanced Generative Structure Prior for Chinese Text Image Super-resolution [101.66745917380837]
低解像度(LR)漢字の正確なストロークを復元するためのテキスト画像フレームワークを提案する。
われわれのフレームワークはこの構造をStyleGANモデルに組み込む。
私たちのコードと事前トレーニングされたモデルは、https://github.com/csi2016/MARCONetPlus.comで公開されます。
論文 参考訳(メタデータ) (2025-08-11T01:34:45Z) - StyleBlend: Enhancing Style-Specific Content Creation in Text-to-Image Diffusion Models [10.685779311280266]
StyleBlendは、限られた参照画像からスタイル表現を学習し、適用するために設計された手法である。
アプローチではスタイルを構成とテクスチャの2つのコンポーネントに分解し,それぞれが異なる戦略を通じて学習する。
論文 参考訳(メタデータ) (2025-02-13T08:26:54Z) - StAyaL | Multilingual Style Transfer [0.0]
100行のテキストのみを活用することで、個人独自のスタイルを高次元埋め込みとして捉えることができることを示す。
この方法論は、話者のスタイルを言語間で転送することで、言語障壁を壊します。
提案手法は,それぞれ74.9%,0.75の試験精度とF1スコアを有するトピックに依存しない。
論文 参考訳(メタデータ) (2025-01-20T18:13:18Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文 参考訳(メタデータ) (2024-05-08T12:57:53Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain [53.22419717434372]
本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。
このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。
本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
論文 参考訳(メタデータ) (2023-05-05T03:02:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。