論文の概要: InkSight: Offline-to-Online Handwriting Conversion by Learning to Read
and Write
- arxiv url: http://arxiv.org/abs/2402.05804v1
- Date: Thu, 8 Feb 2024 16:41:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:01:57.242830
- Title: InkSight: Offline-to-Online Handwriting Conversion by Learning to Read
and Write
- Title(参考訳): InkSight: 読み書き学習によるオフラインからオフラインへの手書き変換
- Authors: Blagoj Mitrevski, Arina Rak, Julian Schnitzler, Chengkun Li, Andrii
Maksai, Jesse Berent, Claudiu Musat
- Abstract要約: InkSightは、物理的なメモ取り者が自分の仕事(オフラインの筆跡)をデジタルのインク(オンラインの筆跡)に変換するのを助ける
当社のアプローチでは、事前の読み書きと組み合わせて、大量のペアのサンプルがない場合にモデルをトレーニングすることが可能です。
人間の評価では,HierTextデータセット上で得られたサンプルの87%が,入力画像の有効なトレースとして検討されている。
- 参考スコア(独自算出の注目度): 7.827729986700937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Digital note-taking is gaining popularity, offering a durable, editable, and
easily indexable way of storing notes in the vectorized form, known as digital
ink. However, a substantial gap remains between this way of note-taking and
traditional pen-and-paper note-taking, a practice still favored by a vast
majority. Our work, InkSight, aims to bridge the gap by empowering physical
note-takers to effortlessly convert their work (offline handwriting) to digital
ink (online handwriting), a process we refer to as Derendering. Prior research
on the topic has focused on the geometric properties of images, resulting in
limited generalization beyond their training domains. Our approach combines
reading and writing priors, allowing training a model in the absence of large
amounts of paired samples, which are difficult to obtain. To our knowledge,
this is the first work that effectively derenders handwritten text in arbitrary
photos with diverse visual characteristics and backgrounds. Furthermore, it
generalizes beyond its training domain into simple sketches. Our human
evaluation reveals that 87% of the samples produced by our model on the
challenging HierText dataset are considered as a valid tracing of the input
image and 67% look like a pen trajectory traced by a human.
- Abstract(参考訳): デジタルノートテイクが人気を博し、デジタルインクと呼ばれるベクタライズされた形式でメモを保存する、耐久性があり、編集可能で、簡単にインデックスできる方法を提供している。
しかし、このようなノートテイクと従来のペン・アンド・ペーパーのノートテイクの間には大きなギャップが残っている。
私たちの仕事であるInkSightは、物理的なメモ取り者に、自分の仕事(オフライン手書き)をデジタルインク(オンライン手書き)に変換する力を与え、ギャップを埋めることを目指しています。
このトピックに関する以前の研究は、画像の幾何学的性質に焦点を当てており、トレーニング領域を越えての一般化は限られている。
提案手法では,事前の読み書きを組み合わせ,大量のペア化サンプルがない場合にモデルを訓練することが可能であり,入手が困難である。
私たちの知る限り、これは様々な視覚特性と背景を持つ任意の写真に手書きのテキストを効果的に導出する最初の作品である。
さらに、トレーニングドメインを超えて単純なスケッチに一般化する。
人間による評価の結果,挑戦的なhiertextデータセットを用いたモデルが生成したサンプルの87%は,入力画像の有効な追跡と見なされ,67%は人間が追跡したペンの軌跡のように見えることがわかった。
関連論文リスト
- Sampling and Ranking for Digital Ink Generation on a tight computational
budget [69.15275423815461]
トレーニングされたデジタルインク生成モデルの出力品質を最大化する方法について検討する。
我々は、デジタルインク領域におけるその種類に関する最初のアブレーション研究において、複数のサンプリングとランキング手法の効果を使用、比較する。
論文 参考訳(メタデータ) (2023-06-02T09:55:15Z) - DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。
提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文 参考訳(メタデータ) (2023-03-16T19:12:52Z) - Character-Aware Models Improve Visual Text Rendering [57.19915686282047]
現在の画像生成モデルは、十分に整形されたビジュアルテキストを生成するのに苦労している。
文字認識モデルは、新しい綴りタスクに大きな利益をもたらす。
われわれのモデルでは、ビジュアルスペルの精度は比較的高く、稀な単語の競合よりも30以上の精度が向上した。
論文 参考訳(メタデータ) (2022-12-20T18:59:23Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Drawing out of Distribution with Neuro-Symbolic Generative Models [49.79371715591122]
ドローイング・アウト・オブ・ディストリクト(英: Drawing out of Distribution)は、ストローク・ベース・ドローイングの神経象徴的生成モデルである。
DooDは画像を直接操作するが、監視や高価なテストタイム推論は必要ない。
我々は、データとタスクをまたいだ一般化能力について、DooDを評価した。
論文 参考訳(メタデータ) (2022-06-03T21:40:22Z) - Learning to Prompt for Vision-Language Models [82.25005817904027]
視覚言語による事前学習が表現学習の有望な代替手段として登場した。
画像と離散ラベルを使って、視覚的な概念と見なされる一連の重みを学習する伝統から、2つの異なるエンコーダのための画像と生のテキストの整列へと移行する。
このようなパラダイムは、より広範な監視源の恩恵を受け、下流タスクへのゼロショット転送を可能にします。
論文 参考訳(メタデータ) (2021-09-02T17:57:31Z) - Few Shots Is All You Need: A Progressive Few Shot Learning Approach for
Low Resource Handwriting Recognition [1.7491858164568674]
本稿では,人的労働力のアノテーション処理を大幅に削減する,数ショットの学習に基づく手書き文字認識手法を提案する。
我々のモデルは、テキストライン画像中の与えられたアルファベットのすべてのシンボルを検出し、デコードステップは、シンボル類似性のスコアを転写されたシンボルの最終シーケンスにマッピングする。
このリトレーニングには,数千の手書き記号と境界ボックスのアノテーションが必要であるため,教師なしのプログレッシブ・ラーニング・アプローチによる人的作業を回避することを提案する。
論文 参考訳(メタデータ) (2021-07-21T13:18:21Z) - CharacterGAN: Few-Shot Keypoint Character Animation and Reposing [64.19520387536741]
本稿では,与えられた文字の少数のサンプルに対してのみトレーニング可能な生成モデルである characterGAN を紹介する。
我々のモデルはキーポイント位置に基づいて新しいポーズを生成し、インタラクティブなフィードバックを提供しながらリアルタイムで修正することができる。
提案手法は,近年のベースラインよりも優れており,多様なキャラクタに対してリアルなアニメーションを生成する。
論文 参考訳(メタデータ) (2021-02-05T12:38:15Z) - Spectral Graph-based Features for Recognition of Handwritten Characters:
A Case Study on Handwritten Devanagari Numerals [0.0]
本稿では,手書き文字を表現するために,頑健なグラフ表現とスペクトルグラフ埋め込みの概念を利用する手法を提案する。
提案手法の有効性の検証のために,インド統計研究所コルカタデータセットの標準手書き数値視覚パターン認識について広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T08:40:08Z) - ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation [0.9542023122304099]
ScrabbleGANは手書きテキストイメージを半教師付きで合成する手法である。
ScrabbleGANは任意の長さの単語の画像を生成する新しい生成モデルに依存している。
論文 参考訳(メタデータ) (2020-03-23T21:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。