論文の概要: TrInk: Ink Generation with Transformer Network
- arxiv url: http://arxiv.org/abs/2508.21098v1
- Date: Thu, 28 Aug 2025 01:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-01 19:45:10.82413
- Title: TrInk: Ink Generation with Transformer Network
- Title(参考訳): TrInk: Transformer Network によるインク生成
- Authors: Zezhong Jin, Shubhang Desai, Xu Chen, Biyi Fang, Zhuoyi Huang, Zhe Li, Chong-Xin Gan, Xiao Tu, Man-Wai Mak, Yan Lu, Shujie Liu,
- Abstract要約: TrInkは、グローバルな依存関係をキャプチャする、Transformerベースのインク生成モデルである。
クロスアテンションモジュールにスケールした位置埋め込みとガウス記憶マスクを導入する。
実験の結果,文字誤り率(CER)は35.56%,単語誤り率(WER)は29.66%低下した。
- 参考スコア(独自算出の注目度): 41.562705515254144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose TrInk, a Transformer-based model for ink generation, which effectively captures global dependencies. To better facilitate the alignment between the input text and generated stroke points, we introduce scaled positional embeddings and a Gaussian memory mask in the cross-attention module. Additionally, we design both subjective and objective evaluation pipelines to comprehensively assess the legibility and style consistency of the generated handwriting. Experiments demonstrate that our Transformer-based model achieves a 35.56\% reduction in character error rate (CER) and an 29.66% reduction in word error rate (WER) on the IAM-OnDB dataset compared to previous methods. We provide an demo page with handwriting samples from TrInk and baseline models at: https://akahello-a11y.github.io/trink-demo/
- Abstract(参考訳): 本稿では,トランスフォーマーを用いたインキ生成モデルTrInkを提案する。
入力テキストと生成されたストロークポイントのアライメントをより容易にするため,クロスアテンションモジュールにスケールした位置埋め込みとガウス記憶マスクを導入する。
さらに,本研究では,提案した筆跡の妥当性とスタイルの整合性を総合的に評価するために,主観的評価パイプラインと客観的評価パイプラインを設計する。
実験の結果,トランスフォーマーを用いたモデルでは,文字誤り率(CER)が35.56 %,単語誤り率(WER)が29.66%低下することがわかった。
TrInkとベースラインモデルの手書きサンプルを備えたデモページを提供しています。
関連論文リスト
- The Cursive Transformer [0.6138671548064355]
ペンストロークオフセットを極座標に変換し、それらをビンに識別し、トークンのシーケンスに変換する新しいトークン化スキームを導入する。
わずか3500個の手書き文字と数個の単純なデータ拡張で、リアルなカーシブな手書きを生成するモデルを訓練することができます。
論文 参考訳(メタデータ) (2025-03-31T03:22:27Z) - Abstractive Summarization as Augmentation for Document-Level Event
Detection [0.0]
文書レベルのイベント検出における浅層モデルと深層モデルのパフォーマンスギャップを,抽象的なテキスト要約を拡張手法として用いて橋渡しする。
テキスト生成には、ビームサーチ、トップkサンプリング、トップpサンプリング、コントラスト検索の4つの復号法を用いる。
以上の結果から,文書タイトルを使用すると,線形SVMとRoBERTaのマクロF1スコアが2.04%,3.19%向上することがわかった。
論文 参考訳(メタデータ) (2023-05-29T11:28:26Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - DPText-DETR: Towards Better Scene Text Detection with Dynamic Points in
Transformer [94.35116535588332]
ポリゴン点やベジエ曲線制御点を予測してテキストをローカライズするトランスフォーマーベースの手法は、シーンテキストの検出で非常に人気がある。
しかし、使用点ラベル形式は、トランスフォーマーモデルの堅牢性に影響を与える人間の読み順を意味する。
本稿では,DPText-DETRを提案する。これはクエリとしてポイント座標を直接使用し,デコーダ層間で動的に更新する。
論文 参考訳(メタデータ) (2022-07-10T15:45:16Z) - CoMER: Modeling Coverage for Transformer-based Handwritten Mathematical
Expression Recognition [4.812445272764651]
トランスフォーマーをベースとしたエンコーダデコーダアーキテクチャは近年,手書きの数学的表現の認識において大きな進歩を遂げている。
過去のステップのアライメント情報を記録したカバレッジ情報は,RNNモデルにおいて有効であることが証明されている。
トランスデコーダのカバレッジ情報を利用するモデルであるCoMERを提案する。
論文 参考訳(メタデータ) (2022-07-10T07:59:23Z) - Hyperbolic Vision Transformers: Combining Improvements in Metric
Learning [116.13290702262248]
計量学習のための新しい双曲型モデルを提案する。
本手法のコアとなるのは、双曲空間にマッピングされた出力埋め込みを備えた視覚変換器である。
4つのデータセットに6つの異なる定式化を施したモデルの評価を行った。
論文 参考訳(メタデータ) (2022-03-21T09:48:23Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Diffusion models for Handwriting Generation [0.0]
本稿では,手書き文字生成のための拡散確率モデルを提案する。
本手法では,テキスト認識,書き手スタイル,あるいは敵対的損失関数の使用は不要である。
本モデルでは,画像データから直接文字スタイリスティックな特徴を組み込むことができ,サンプリング時のユーザインタラクションを不要にすることができる。
論文 参考訳(メタデータ) (2020-11-13T00:31:22Z) - Paraphrase Generation with Latent Bag of Words [46.34571236204907]
パラフレーズ生成のための潜在単語袋(BOW)モデルを提案する。
我々は、ソースワードを使用して、それらの隣人を予測するとともに、ターゲットのBOWをソフトマックスの混合でモデル化する。
我々の潜在BOWモデルはデコーダを強化するだけでなく、明確な解釈可能性を示す。
論文 参考訳(メタデータ) (2020-01-07T09:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。