論文の概要: CoMER: Modeling Coverage for Transformer-based Handwritten Mathematical
Expression Recognition
- arxiv url: http://arxiv.org/abs/2207.04410v1
- Date: Sun, 10 Jul 2022 07:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-12 14:24:30.740414
- Title: CoMER: Modeling Coverage for Transformer-based Handwritten Mathematical
Expression Recognition
- Title(参考訳): CoMER:変換器を用いた手書き数式認識のためのモデル被覆
- Authors: Wenqi Zhao, Liangcai Gao
- Abstract要約: トランスフォーマーをベースとしたエンコーダデコーダアーキテクチャは近年,手書きの数学的表現の認識において大きな進歩を遂げている。
過去のステップのアライメント情報を記録したカバレッジ情報は,RNNモデルにおいて有効であることが証明されている。
トランスデコーダのカバレッジ情報を利用するモデルであるCoMERを提案する。
- 参考スコア(独自算出の注目度): 4.812445272764651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer-based encoder-decoder architecture has recently made
significant advances in recognizing handwritten mathematical expressions.
However, the transformer model still suffers from the lack of coverage problem,
making its expression recognition rate (ExpRate) inferior to its RNN
counterpart. Coverage information, which records the alignment information of
the past steps, has proven effective in the RNN models. In this paper, we
propose CoMER, a model that adopts the coverage information in the transformer
decoder. Specifically, we propose a novel Attention Refinement Module (ARM) to
refine the attention weights with past alignment information without hurting
its parallelism. Furthermore, we take coverage information to the extreme by
proposing self-coverage and cross-coverage, which utilize the past alignment
information from the current and previous layers. Experiments show that CoMER
improves the ExpRate by 0.61%/2.09%/1.59% compared to the current
state-of-the-art model, and reaches 59.33%/59.81%/62.97% on the CROHME
2014/2016/2019 test sets.
- Abstract(参考訳): トランスフォーマーベースのエンコーダデコーダアーキテクチャは近年,手書きの数学的表現の認識において大きな進歩を遂げている。
しかし、トランスモデルは依然としてカバレッジの問題に悩まされており、表現認識率(ExpRate)はRNNよりも劣っている。
過去のステップのアライメント情報を記録したカバレッジ情報は,RNNモデルにおいて有効であることが証明されている。
本稿では,トランスデコーダのカバレッジ情報を採用するモデルであるCoMERを提案する。
具体的には,その並列性を損なうことなく,過去のアライメント情報で注意重みを洗練するための新しい注意改善モジュール(arm)を提案する。
さらに,現在および過去のレイヤからの過去のアライメント情報を利用する自己カバレッジとクロスカバレッジを提案することで,カバー情報を極端に捉えた。
実験の結果、CoMERは現在の最先端モデルと比較してExpRateを0.61%/2.09%/1.59%改善し、CROHME 2014/2016/2019テストセットで59.33%/59.81%/62.97%に達した。
関連論文リスト
- SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Laplacian Autoencoders for Learning Stochastic Representations [0.6999740786886537]
本稿では,非教師付き表現学習のためのベイズオートエンコーダを提案する。
我々のラプラシアオートエンコーダは、潜在空間と出力空間の両方において、よく校正された不確かさを推定する。
論文 参考訳(メタデータ) (2022-06-30T07:23:16Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Handwritten Mathematical Expression Recognition with Bidirectionally
Trained Transformer [2.952085248753861]
トランスデコーダデコーダを使用してRNNベースのデコーダを置き換える。
実験により, CROHME 2014における現在の最先端手法のExpRateを2.23%改善した。
論文 参考訳(メタデータ) (2021-05-06T03:11:54Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Evaluating Prediction-Time Batch Normalization for Robustness under
Covariate Shift [81.74795324629712]
我々は予測時間バッチ正規化と呼び、共変量シフト時のモデル精度とキャリブレーションを大幅に改善する。
予測時間バッチ正規化は、既存の最先端アプローチに相補的な利点をもたらし、ロバスト性を向上させることを示します。
この手法は、事前トレーニングと併用して使用すると、さまざまな結果が得られるが、より自然なタイプのデータセットシフトでは、パフォーマンスが良くないようだ。
論文 参考訳(メタデータ) (2020-06-19T05:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。