論文の概要: FW-GAN: Frequency-Driven Handwriting Synthesis with Wave-Modulated MLP Generator
- arxiv url: http://arxiv.org/abs/2508.21040v1
- Date: Thu, 28 Aug 2025 17:44:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.542007
- Title: FW-GAN: Frequency-Driven Handwriting Synthesis with Wave-Modulated MLP Generator
- Title(参考訳): FW-GAN:波動変調MLPジェネレータを用いた周波数駆動手書き合成
- Authors: Huynh Tong Dang Khoa, Dang Hoai Nam, Vo Nguyen Le Duy,
- Abstract要約: FW-GANは、1つの例から現実的な書き手一貫性のあるテキストを生成するワンショット手書き合成フレームワークである。
我々のジェネレータは、位相対応のWave-MLPを統合し、微妙なスタイリスティックな手がかりを保ちながら、空間的関係をよりよく捉えている。
ベトナム語と英語の筆跡データセットの実験は、FW-GANが高品質でスタイルに一貫性のある筆跡を生成することを示した。
- 参考スコア(独自算出の注目度): 4.94997283141601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeled handwriting data is often scarce, limiting the effectiveness of recognition systems that require diverse, style-consistent training samples. Handwriting synthesis offers a promising solution by generating artificial data to augment training. However, current methods face two major limitations. First, most are built on conventional convolutional architectures, which struggle to model long-range dependencies and complex stroke patterns. Second, they largely ignore the crucial role of frequency information, which is essential for capturing fine-grained stylistic and structural details in handwriting. To address these challenges, we propose FW-GAN, a one-shot handwriting synthesis framework that generates realistic, writer-consistent text from a single example. Our generator integrates a phase-aware Wave-MLP to better capture spatial relationships while preserving subtle stylistic cues. We further introduce a frequency-guided discriminator that leverages high-frequency components to enhance the authenticity detection of generated samples. Additionally, we introduce a novel Frequency Distribution Loss that aligns the frequency characteristics of synthetic and real handwriting, thereby enhancing visual fidelity. Experiments on Vietnamese and English handwriting datasets demonstrate that FW-GAN generates high-quality, style-consistent handwriting, making it a valuable tool for augmenting data in low-resource handwriting recognition (HTR) pipelines. Official implementation is available at https://github.com/DAIR-Group/FW-GAN
- Abstract(参考訳): ラベル付き手書きデータは少ないことが多く、多様なスタイルのトレーニングサンプルを必要とする認識システムの有効性を制限している。
手書き合成は、トレーニングを強化するために人工データを生成することで、有望なソリューションを提供する。
しかし、現在の手法には2つの大きな制限がある。
まず、ほとんどのものは、長距離依存関係と複雑なストロークパターンのモデル化に苦労する従来の畳み込みアーキテクチャに基づいて構築されている。
第二に、彼らは周波数情報の重要な役割を無視しており、これは手書きのきめ細かいスタイリスティックで構造的な詳細を捉えるのに不可欠である。
これらの課題に対処するため,本研究では,一例から現実的で書き手一貫性のあるテキストを生成するワンショット手書き合成フレームワークFW-GANを提案する。
我々のジェネレータは、位相対応のWave-MLPを統合し、微妙なスタイリスティックな手がかりを保ちながら、空間的関係をよりよく捉えている。
さらに、高周波成分を利用した周波数誘導判別器を導入し、生成したサンプルの真正性検出を強化する。
さらに,合成文字と実字の周波数特性を整合させる新しい周波数分布損失を導入し,視覚的忠実度を向上する。
ベトナム語および英語の手書きデータセットの実験では、FW-GANは高品質でスタイルに一貫性のある手書き文字を生成することが示されており、低リソース手書き認識(HTR)パイプラインでデータを増強するための貴重なツールである。
公式実装はhttps://github.com/DAIR-Group/FW-GANで公開されている。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-16T11:19:22Z) - DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Text2Data: Low-Resource Data Generation with Textual Control [100.5970757736845]
Text2Dataは、ラベルのないデータを使って基盤となるデータ配布を理解する新しいアプローチである。
制御性を確保し、破滅的な忘れを効果的に防止する、制約最適化に基づく新たな学習目標を通じて微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。