論文の概要: Stroke Constrained Attention Network for Online Handwritten Mathematical
Expression Recognition
- arxiv url: http://arxiv.org/abs/2002.08670v1
- Date: Thu, 20 Feb 2020 11:01:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:54:57.000325
- Title: Stroke Constrained Attention Network for Online Handwritten Mathematical
Expression Recognition
- Title(参考訳): オンライン手書き数式認識のための脳卒中拘束注意ネットワーク
- Authors: Jiaming Wang and Jun Du and Jianshu Zhang
- Abstract要約: 本稿では,エンコーダ・デコーダを用いたオンライン手書き数式認識(HMER)の基本単位として脳卒中を取り扱う新しい脳卒中拘束型注意ネットワーク(SCAN)を提案する。
シングルモーダルHMERでは、まずCNN-GRUエンコーダを使用してオンラインモードの入力トレースからポイントレベルの特徴を抽出し、ストローク制約情報を使用してオンラインおよびオフラインのストロークレベルの特徴に変換する。
マルチモーダルHMERでは、デコーダ内のマルチモーダル情報を融合する以外に、オンラインとオフラインのモダリティ間のストロークベースのアライメントを利用して、エンコーダ内のマルチモーダル情報を融合することもできる。
- 参考スコア(独自算出の注目度): 39.04507692185916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel stroke constrained attention network (SCAN)
which treats stroke as the basic unit for encoder-decoder based online
handwritten mathematical expression recognition (HMER). Unlike previous methods
which use trace points or image pixels as basic units, SCAN makes full use of
stroke-level information for better alignment and representation. The proposed
SCAN can be adopted in both single-modal (online or offline) and multi-modal
HMER. For single-modal HMER, SCAN first employs a CNN-GRU encoder to extract
point-level features from input traces in online mode and employs a CNN encoder
to extract pixel-level features from input images in offline mode, then use
stroke constrained information to convert them into online and offline
stroke-level features. Using stroke-level features can explicitly group points
or pixels belonging to the same stroke, therefore reduces the difficulty of
symbol segmentation and recognition via the decoder with attention mechanism.
For multi-modal HMER, other than fusing multi-modal information in decoder,
SCAN can also fuse multi-modal information in encoder by utilizing the stroke
based alignments between online and offline modalities. The encoder fusion is a
better way for combining multi-modal information as it implements the
information interaction one step before the decoder fusion so that the
advantages of multiple modalities can be exploited earlier and more adequately
when training the encoder-decoder model. Evaluated on a benchmark published by
CROHME competition, the proposed SCAN achieves the state-of-the-art
performance.
- Abstract(参考訳): 本稿では,エンコーダ・デコーダを用いたオンライン手書き数式認識(HMER)の基本単位としてストロークを取り扱う新しいストローク制約注意ネットワーク(SCAN)を提案する。
トレースポイントや画像ピクセルを基本単位として使用する従来の方法とは異なり、SCANはアライメントと表現を改善するためにストロークレベルの情報をフル活用している。
提案したSCANは、シングルモーダル(オンラインまたはオフライン)とマルチモーダルHMERの両方に適用できる。
単一モードのHMERでは、まずCNN-GRUエンコーダを使用してオンラインモードの入力トレースからポイントレベルの特徴を抽出し、CNNエンコーダを使用してオフラインモードの入力画像からピクセルレベルの特徴を抽出し、ストローク制約情報を使用してオンラインおよびオフラインのストロークレベルの特徴に変換する。
ストロークレベル機能を使用することで、同じストロークに属するポイントやピクセルを明示的にグループ化することができるため、マークのセグメンテーションやアテンション機構を備えたデコーダによる認識の困難さが軽減される。
マルチモーダルHMERでは、デコーダ内のマルチモーダル情報を融合する以外に、オンラインとオフラインのモダリティ間のストロークベースのアライメントを利用して、エンコーダ内のマルチモーダル情報を融合することもできる。
エンコーダ融合は、デコーダ融合の1ステップ前に情報インタラクションを実装するので、エンコーダ-デコーダモデルのトレーニングにおいて、複数のモダリティの利点を早くより適切に活用できるため、マルチモーダル情報を結合するより良い方法である。
CROHMEコンペティションによって発表されたベンチマークに基づいて、提案したSCANは最先端のパフォーマンスを達成する。
関連論文リスト
- UTSRMorph: A Unified Transformer and Superresolution Network for Unsupervised Medical Image Registration [4.068692674719378]
複雑な画像登録は、医用画像解析において重要な課題である。
本稿では,UTSRMorphネットワークと統合トランスフォーマー(UTSRMorph)ネットワークという,教師なしの新たな画像登録手法を提案する。
論文 参考訳(メタデータ) (2024-10-27T06:28:43Z) - For One-Shot Decoding: Self-supervised Deep Learning-Based Polar Decoder [1.4964546566293881]
極性符号のワンショット復号を可能にする自己教師付き深層学習に基づく復号法を提案する。
提案手法では、ニューラルネットワーク(NN)をトレーニングするラベルとして情報ビットベクトルを使用する代わりに、NNは有界距離デコーダとして機能するように訓練される。
論文 参考訳(メタデータ) (2023-07-16T11:12:58Z) - On the Importance of Image Encoding in Automated Chest X-Ray Report
Generation [4.843654097048771]
胸部X線は、そのアクセシビリティと有効性から最も人気のある医用画像モダリティの1つである。
これらの画像を解釈し、患者の状態を診断できる、よく訓練された放射線科医の慢性的な不足がある。
自動放射線診断レポート生成は 臨床実践において 非常に有用なツールです
論文 参考訳(メタデータ) (2022-11-24T08:02:52Z) - A Scalable Graph Neural Network Decoder for Short Block Codes [49.25571364253986]
エッジ重み付きグラフニューラルネットワーク(EW-GNN)に基づく短絡符号の復号化アルゴリズムを提案する。
EW-GNNデコーダは、繰り返しメッセージパッシング構造を持つタナーグラフで動作する。
EW-GNNデコーダは,復号誤り率の観点から,BP法および深層学習に基づくBP法より優れていることを示す。
論文 参考訳(メタデータ) (2022-11-13T17:13:12Z) - When Counting Meets HMER: Counting-Aware Network for Handwritten
Mathematical Expression Recognition [57.51793420986745]
我々は、手書き数式認識(HMER)のための非従来型ネットワークであるCounting-Aware Network(CAN)を提案する。
シンボルレベルの位置アノテーションを使わずに各シンボルクラスの数を予測できる弱教師付きカウントモジュールを設計する。
HMERのベンチマークデータセットの実験により、エンコーダ・デコーダモデルの予測誤差を修正するために、共同最適化とカウント結果の両方が有用であることが検証された。
論文 参考訳(メタデータ) (2022-07-23T08:39:32Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Dual Convolutional LSTM Network for Referring Image Segmentation [18.181286443737417]
イメージセグメンテーションは、コンピュータビジョンと自然言語理解の共通点における問題である。
本稿では,この問題を解決するために,二重畳み込みLSTM(ConvLSTM)ネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-30T20:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。