論文の概要: Dual Orthogonal Guidance for Robust Diffusion-based Handwritten Text Generation
- arxiv url: http://arxiv.org/abs/2508.17017v1
- Date: Sat, 23 Aug 2025 13:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.300514
- Title: Dual Orthogonal Guidance for Robust Diffusion-based Handwritten Text Generation
- Title(参考訳): ロバスト拡散に基づく手書きテキスト生成のための二重直交誘導法
- Authors: Konstantina Nikolaidou, George Retsinas, Giorgos Sfikas, Silvia Cascianelli, Rita Cucchiara, Marcus Liwicki,
- Abstract要約: 拡散に基づく手書きテキスト生成(HTG)アプローチは、トレーニング時間と通常のスタイルで観察される単語内単語の頻度が高く、印象的な結果が得られる。
トレーニングサンプルを記憶する傾向があり、しばしばスタイルの多様性と生成の明確さに苦しむ。
そこで本研究では,元のプロンプトに対して負に摂動したプロンプトを利用する新しいサンプリング誘導戦略であるDual Orthogonal Guidance(DOG)を提案する。
最新技術であるDiffusionPenとOne-DMの実験結果から、DOGは、語彙外単語や難解な書き方であっても、内容の明快さと可変性を両立させることを示した。
- 参考スコア(独自算出の注目度): 55.35931633405974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based Handwritten Text Generation (HTG) approaches achieve impressive results on frequent, in-vocabulary words observed at training time and on regular styles. However, they are prone to memorizing training samples and often struggle with style variability and generation clarity. In particular, standard diffusion models tend to produce artifacts or distortions that negatively affect the readability of the generated text, especially when the style is hard to produce. To tackle these issues, we propose a novel sampling guidance strategy, Dual Orthogonal Guidance (DOG), that leverages an orthogonal projection of a negatively perturbed prompt onto the original positive prompt. This approach helps steer the generation away from artifacts while maintaining the intended content, and encourages more diverse, yet plausible, outputs. Unlike standard Classifier-Free Guidance (CFG), which relies on unconditional predictions and produces noise at high guidance scales, DOG introduces a more stable, disentangled direction in the latent space. To control the strength of the guidance across the denoising process, we apply a triangular schedule: weak at the start and end of denoising, when the process is most sensitive, and strongest in the middle steps. Experimental results on the state-of-the-art DiffusionPen and One-DM demonstrate that DOG improves both content clarity and style variability, even for out-of-vocabulary words and challenging writing styles.
- Abstract(参考訳): 拡散に基づく手書きテキスト生成(HTG)アプローチは、トレーニング時間や通常のスタイルで観察される頻繁な語彙内単語に対して、印象的な結果が得られる。
しかし、トレーニングサンプルを記憶する傾向があり、しばしばスタイルの多様性と生成の明確さに苦しむ。
特に、標準拡散モデルは、生成したテキストの可読性に悪影響を及ぼすアーティファクトや歪みを生成する傾向がある。
これらの課題に対処するため, 正のプロンプトに対して負に摂動したプロンプトの直交射影を利用する新しいサンプリング誘導戦略であるDual Orthogonal Guidance (DOG)を提案する。
このアプローチは、意図したコンテンツを維持しながらアーティファクトから生成を分離するのに役立つ。
非条件予測に依存し、高い誘導スケールでノイズを発生させる標準の分類自由誘導(CFG)とは異なり、DOGは遅延空間においてより安定で不整合な方向を導入する。
偏極化過程における誘導の強度を制御するために、偏極化の開始時と終了時に弱く、最も敏感であり、中間段階において最強である三角形のスケジュールを適用する。
最新技術であるDiffusionPenとOne-DMの実験結果から、DOGは、語彙外単語や難解な書き方であっても、内容の明瞭さとスタイルのばらつきの両方を改善していることが示された。
関連論文リスト
- The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - Scribble-Guided Diffusion for Training-free Text-to-Image Generation [17.930032337081673]
Scribble-Guided Diffusion (ScribbleDiff)は、単純なユーザが提供するスクリブルを視覚的プロンプトとして利用して画像生成を誘導する、トレーニング不要のアプローチである。
モーメントアライメントとスクリブル伝搬を導入し、生成した画像とスクリブル入力のより効果的で柔軟なアライメントを可能にする。
論文 参考訳(メタデータ) (2024-09-12T13:13:07Z) - Text Diffusion with Reinforced Conditioning [92.17397504834825]
本稿では,テキスト拡散モデルを完全に解析し,トレーニング中の自己条件の劣化と,トレーニングとサンプリングのミスアライメントの2つの重要な限界を明らかにする。
そこで本研究では, TRECと呼ばれる新しいテキスト拡散モデルを提案する。
論文 参考訳(メタデータ) (2024-02-19T09:24:02Z) - Optimizing Factual Accuracy in Text Generation through Dynamic Knowledge
Selection [71.20871905457174]
言語モデル(LM)は、私たちが情報と対話する方法に革命をもたらしたが、しばしば非現実的なテキストを生成する。
従来の手法では、外部知識をテキスト生成の参照として使用して事実性を高めるが、無関係な参照の知識の混在に苦慮することが多い。
本稿では,テキスト生成プロセスを反復処理に分割するDKGenを提案する。
論文 参考訳(メタデータ) (2023-08-30T02:22:40Z) - AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation [138.98095392584693]
本稿では,自己回帰拡散(AR-Diffusion)を導入し,自然言語の固有な逐次特性について考察する。
AR拡散は、右のトークンの生成が左の生成されたトークンに依存することを保証します。
様々なテキスト生成タスクに関する一連の実験において、AR-Diffusionは既存の拡散言語モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-05-16T15:10:22Z) - DuNST: Dual Noisy Self Training for Semi-Supervised Controllable Text
Generation [34.49194429157166]
ラベル付きデータが不十分な場合、事前学習された言語モデルの微調整を増強することにより、言語理解において再び自己学習(ST)が向上した。
STを属性制御可能な言語生成に組み込むことは依然として困難である。
論文 参考訳(メタデータ) (2022-12-16T21:44:34Z) - Anticipating the Unseen Discrepancy for Vision and Language Navigation [63.399180481818405]
視覚言語ナビゲーションでは、エージェントは特定のターゲットに到達するために自然言語命令に従う必要がある。
目に見える環境と目に見えない環境の間に大きな違いがあるため、エージェントがうまく一般化することは困難である。
本研究では,テストタイムの視覚的整合性を促進することによって,未知の環境への一般化を学習する,未知の離散性予測ビジョンと言語ナビゲーション(DAVIS)を提案する。
論文 参考訳(メタデータ) (2022-09-10T19:04:40Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。