論文の概要: Attention Guidance Mechanism for Handwritten Mathematical Expression
Recognition
- arxiv url: http://arxiv.org/abs/2403.01756v2
- Date: Tue, 5 Mar 2024 15:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:55:05.128188
- Title: Attention Guidance Mechanism for Handwritten Mathematical Expression
Recognition
- Title(参考訳): 手書き数式認識のための注意誘導機構
- Authors: Yutian Liu, Wenjun Ke, Jianguo Wei
- Abstract要約: 手書きの数学的表現認識(HMER)は、複雑な数学的表現のレイアウトのため、画像からテキストへのタスクにおいて困難である。
本研究では,無関係領域における注意重みを明示的に抑制し,適切な部分を強化するための注意誘導機構を提案する。
本手法は, CROHME 2014/2016/2019データセットにおいて, 60.75% / 61.81% / 63.30%の表現認識率を達成し, 既存の最先端手法よりも優れていた。
- 参考スコア(独自算出の注目度): 20.67011291281534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten mathematical expression recognition (HMER) is challenging in
image-to-text tasks due to the complex layouts of mathematical expressions and
suffers from problems including over-parsing and under-parsing. To solve these,
previous HMER methods improve the attention mechanism by utilizing historical
alignment information. However, this approach has limitations in addressing
under-parsing since it cannot correct the erroneous attention on image areas
that should be parsed at subsequent decoding steps. This faulty attention
causes the attention module to incorporate future context into the current
decoding step, thereby confusing the alignment process. To address this issue,
we propose an attention guidance mechanism to explicitly suppress attention
weights in irrelevant areas and enhance the appropriate ones, thereby
inhibiting access to information outside the intended context. Depending on the
type of attention guidance, we devise two complementary approaches to refine
attention weights: self-guidance that coordinates attention of multiple heads
and neighbor-guidance that integrates attention from adjacent time steps.
Experiments show that our method outperforms existing state-of-the-art methods,
achieving expression recognition rates of 60.75% / 61.81% / 63.30% on the
CROHME 2014/ 2016/ 2019 datasets.
- Abstract(参考訳): 手書きの数学的表現認識(HMER)は、数学的表現の複雑なレイアウトのため、画像からテキストへのタスクにおいて困難であり、オーバーパーシングやアンダーパーシングといった問題に悩まされている。
これらの問題を解決するため,従来のhmer手法では履歴アライメント情報を利用して注意機構を改善する。
しかし、この手法では、後の復号ステップで解析すべき画像領域の誤注意を補正できないため、アンダーパーシングに対処する際の制限がある。
この不注意により、アテンションモジュールは現在のデコードステップに将来のコンテキストを組み込むため、アライメントプロセスを混乱させる。
この問題に対処するために,無関係領域における注意重みを明示的に抑制し,適切な注意重みを向上し,意図した文脈外の情報へのアクセスを阻害する注意誘導機構を提案する。
注意誘導の種類によって,複数の頭部の注意を協調する自己誘導と,隣接する時間ステップからの注意を一体化する隣接誘導の2つの補完的アプローチを考案する。
提案手法は,crohme 2014/2016/2019データセットにおける表現認識率60.75%/61.81%/63.30%を達成した。
関連論文リスト
- Elliptical Attention [1.7597562616011944]
Pairwise dot-product self-attentionは、言語やビジョンにおける様々なアプリケーションで最先端のパフォーマンスを実現するトランスフォーマーの成功の鍵である。
本稿では,マハラノビス距離計を用いて注意重みの計算を行い,その基礎となる特徴空間を文脈的関連性の高い方向に拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-19T18:38:11Z) - Guiding Visual Question Answering with Attention Priors [76.21671164766073]
本稿では,言語・視覚的接地による注意機構の導出について述べる。
この基礎は、クエリ内の構造化言語概念を視覚オブジェクト間の参照物に接続することで導かれる。
このアルゴリズムは、注意に基づく推論モデルを調べ、関連する連想的知識を注入し、コア推論プロセスを制御する。
論文 参考訳(メタデータ) (2022-05-25T09:53:47Z) - Self-supervised Implicit Glyph Attention for Text Recognition [52.68772018871633]
我々は、シーンテキスト認識(STR)手法、自監督型暗黙的グリフアテンション(SIGA)のための新しいアテンションメカニズムを提案する。
SIGAは、テキストイメージのグリフ構造を、共同で教師付きテキストセグメンテーションと暗黙の注意アライメントによって記述する。
実験の結果,SIGA は従来の STR 法よりも一貫した性能を示した。
論文 参考訳(メタデータ) (2022-03-07T13:40:33Z) - Learning to ignore: rethinking attention in CNNs [87.01305532842878]
我々は,CNNの注意機構を再構築し,出席する学習ではなく無視することを学ぶことを提案する。
具体的には、シーン内で無関係な情報を明示的に学習し、生成した表現でそれを抑えることを提案する。
論文 参考訳(メタデータ) (2021-11-10T13:47:37Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z) - More Than Just Attention: Learning Cross-Modal Attentions with
Contrastive Constraints [63.08768589044052]
本稿では,コントラストコンテンツリソーシング (CCR) とコントラストコンテンツスワッピング (CCS) の制約を提案する。
CCRとCCSの制約は、明示的な注意アノテーションを必要とせず、対照的な学習方法で注意モデルのトレーニングを監督する。
Flickr30kとMS-COCOのデータセットの実験は、これらの注意制約を2つの最先端の注意ベースモデルに統合することで、モデルのパフォーマンスが向上することを示した。
論文 参考訳(メタデータ) (2021-05-20T08:48:10Z) - Boost Image Captioning with Knowledge Reasoning [10.733743535624509]
本稿では,単語ごとの逐次的な記述を生成する際の視覚的注意の正しさを改善するために,単語注意を提案する。
本稿では,知識グラフから抽出した外部知識をエンコーダ・デコーダ・フレームワークに注入し,意味のあるキャプションを容易にする新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-02T12:19:46Z) - Gaussian Constrained Attention Network for Scene Text Recognition [16.485898019983797]
既存の注意機構は注意拡散の問題に直面しており、モデルが特定の特徴領域に焦点を絞らない可能性がある。
本稿では,新しいガウス制約リファインメントモジュールを組み込んだ2次元アテンションベース手法を提案する。
このように、注意重みはより集中し、注意に基づく認識ネットワークはより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-10-19T01:55:30Z) - Improving Attention-Based Handwritten Mathematical Expression
Recognition with Scale Augmentation and Drop Attention [35.82648516972362]
手書き数式認識(HMER)は手書き数式認識において重要な研究方向である。
HMERの性能は数式(ME)の二次元構造に苦しむ
本稿では,大規模化と縮小を考慮した高性能HMERモデルを提案する。
論文 参考訳(メタデータ) (2020-07-20T13:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。