論文の概要: Handwriting Transformers
- arxiv url: http://arxiv.org/abs/2104.03964v1
- Date: Thu, 8 Apr 2021 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:56:18.200814
- Title: Handwriting Transformers
- Title(参考訳): 手書きトランスフォーマー
- Authors: Ankan Kumar Bhunia, Salman Khan, Hisham Cholakkal, Rao Muhammad Anwer,
Fahad Shahbaz Khan, Mubarak Shah
- Abstract要約: 本稿では,スタイルコンテンツの絡み合いとグローバルおよびローカルライティングスタイルパターンの両方を学ぶことを目的とした,トランスフォーマティブベースの手書きテキスト画像生成手法であるhwtを提案する。
提案したHWTは, 自己認識機構を用いて, スタイルの例における長短距離関係をキャプチャする。
提案するHWTは,現実的な手書きテキスト画像を生成する。
- 参考スコア(独自算出の注目度): 98.3964093654716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel transformer-based styled handwritten text image generation
approach, HWT, that strives to learn both style-content entanglement as well as
global and local writing style patterns. The proposed HWT captures the long and
short range relationships within the style examples through a self-attention
mechanism, thereby encoding both global and local style patterns. Further, the
proposed transformer-based HWT comprises an encoder-decoder attention that
enables style-content entanglement by gathering the style representation of
each query character. To the best of our knowledge, we are the first to
introduce a transformer-based generative network for styled handwritten text
generation. Our proposed HWT generates realistic styled handwritten text images
and significantly outperforms the state-of-the-art demonstrated through
extensive qualitative, quantitative and human-based evaluations. The proposed
HWT can handle arbitrary length of text and any desired writing style in a
few-shot setting. Further, our HWT generalizes well to the challenging scenario
where both words and writing style are unseen during training, generating
realistic styled handwritten text images.
- Abstract(参考訳): 本稿では, トランスフォーマーを用いた手書きテキスト画像生成手法であるHWTを提案する。
提案したHWTは,自己アテンション機構を用いて,スタイル例内の長短範囲関係をキャプチャし,グローバルなスタイルパターンとローカルなスタイルパターンの両方を符号化する。
さらに,提案したトランスフォーマーベースHWTは,各クエリ文字のスタイル表現を収集することにより,スタイル内容の絡み合いを可能にするエンコーダ・デコーダアテンションを備える。
私たちの知る限りでは、スタイル化された手書きテキスト生成のためのトランスフォーマティブベースの生成ネットワークを最初に導入しました。
提案するHWTは,現実的な手書きテキスト画像を生成するとともに,定性的,定量的,人為的評価により,最先端の成果を著しく上回っている。
提案したHWTは、任意の長さのテキストと任意の書き込みスタイルを数ショット設定で処理できる。
さらに、HWTは、訓練中に単語と書き方の両方が見えないという難解なシナリオを一般化し、現実的な手書きテキスト画像を生成する。
関連論文リスト
- Challenging Assumptions in Learning Generic Text Style Embeddings [24.64611983641699]
本研究は,スタイル中心のタスクに不可欠な汎用的な文レベルスタイルの埋め込みを作成することで,そのギャップを解消する。
我々のアプローチは、低レベルのテキストスタイルの変更が高レベルのスタイルを構成することができるという前提に基づいています。
論文 参考訳(メタデータ) (2025-01-27T14:21:34Z) - Bringing Characters to New Stories: Training-Free Theme-Specific Image Generation via Dynamic Visual Prompting [71.29100512700064]
テーマ固有の画像生成のためのトレーニング不要なT-Prompterを提案する。
T-Prompterは参照イメージを生成モデルに統合し、ユーザはターゲットテーマをシームレスに指定できる。
提案手法は,一貫したストーリー生成,キャラクターデザイン,リアルなキャラクタ生成,スタイル誘導画像生成を可能にする。
論文 参考訳(メタデータ) (2025-01-26T19:01:19Z) - Semi-Supervised Adaptation of Diffusion Models for Handwritten Text Generation [0.0]
手書きテキスト生成のための潜時DMの拡張を提案する。
提案するコンテントエンコーダは,テキストおよび書体の特徴に対して,DMの条件付けを行う異なる方法を実現する。
新たなラベル付きデータセットにモデルを適応させるため,半教師付きトレーニングスキームを提案する。
論文 参考訳(メタデータ) (2024-12-20T12:48:58Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - StyleAdapter: A Unified Stylized Image Generation Model [97.24936247688824]
StyleAdapterは、様々なスタイリング画像を生成することができる統一型スタイリング画像生成モデルである。
T2I-adapter や ControlNet のような既存の制御可能な合成手法と統合することができる。
論文 参考訳(メタデータ) (2023-09-04T19:16:46Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。