論文の概要: Dual Branch Network Towards Accurate Printed Mathematical Expression
Recognition
- arxiv url: http://arxiv.org/abs/2312.09030v1
- Date: Thu, 14 Dec 2023 15:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:26:00.002592
- Title: Dual Branch Network Towards Accurate Printed Mathematical Expression
Recognition
- Title(参考訳): 正確な印刷数式認識に向けたデュアルブランチネットワーク
- Authors: Yuqing Wang, Zhenyu Weng, Zhaokun Zhou, Shuaijian Ji, Zhongjie Ye,
Yuesheng Zhu
- Abstract要約: 局所的およびグローバルな文脈情報から正確な印刷数式認識を行うために,Dual Branch Transformer-based Network (DBN)を提案する。
実験の結果,DBNは数学的表現を正確に認識でき,最先端の性能を達成できた。
- 参考スコア(独自算出の注目度): 27.428642277844972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past years, Printed Mathematical Expression Recognition (PMER) has
progressed rapidly. However, due to the insufficient context information
captured by Convolutional Neural Networks, some mathematical symbols might be
incorrectly recognized or missed. To tackle this problem, in this paper, a Dual
Branch transformer-based Network (DBN) is proposed to learn both local and
global context information for accurate PMER. In our DBN, local and global
features are extracted simultaneously, and a Context Coupling Module (CCM) is
developed to complement the features between the global and local contexts. CCM
adopts an interactive manner so that the coupled context clues are highly
correlated to each expression symbol. Additionally, we design a Dynamic Soft
Target (DST) strategy to utilize the similarities among symbol categories for
reasonable label generation. Our experimental results have demonstrated that
DBN can accurately recognize mathematical expressions and has achieved
state-of-the-art performance.
- Abstract(参考訳): 近年,PMER(Printed Mathematical Expression Recognition)が急速に進展している。
しかし、畳み込みニューラルネットワークが捉えた文脈情報が不十分なため、いくつかの数学的シンボルは誤って認識されるか、見逃される可能性がある。
そこで,本稿では,ローカルとグローバルの両方の文脈情報から正確なpmerを学習するために,dual branch transformer-based network (dbn)を提案する。
dbnでは,局所的特徴とグローバル的特徴を同時に抽出し,グローバルコンテキストとローカルコンテキスト間の機能を補完するコンテキスト結合モジュール(ccm)を開発した。
CCMは、各表現記号に結合した文脈ヒントが高い相関関係を持つように、対話的な方法を採用する。
さらに、シンボルカテゴリ間の類似性を合理的なラベル生成に活用するための動的ソフトターゲット(DST)戦略を設計する。
実験の結果,dbnは数学的表現を正確に認識でき,最先端の性能を達成できた。
関連論文リスト
- Compound Expression Recognition via Multi Model Ensemble for the ABAW7 Challenge [6.26485278174662]
複合表現認識(CER)は、効果的な対人相互作用に不可欠である。
本稿では,この複雑さに対処するアンサンブル学習に基づくソリューションを提案する。
提案手法はRAF-DBデータセット上で高い精度を示し,ゼロショット学習によりC-EXPR-DBの一部の表現を認識できる。
論文 参考訳(メタデータ) (2024-07-17T01:59:34Z) - Compound Expression Recognition via Multi Model Ensemble [8.529105068848828]
複合表現認識は対人相互作用において重要な役割を果たす。
本稿では,複合表現認識のためのアンサンブル学習手法に基づく解を提案する。
提案手法はRAF-DBの精度が高く,C-EXPR-DBの一部部分でゼロショットで表現を認識できる。
論文 参考訳(メタデータ) (2024-03-19T09:30:56Z) - BCLNet: Bilateral Consensus Learning for Two-View Correspondence Pruning [26.400567961735234]
対応プルーニングは、2つの関連する画像間の信頼性の高い対応を確立することを目的としている。
既存のアプローチでは、ローカルとグローバルのコンテキストを扱うために、プログレッシブな戦略を採用することが多い。
本稿では,2視点対応型プルーニングタスクにおいて,双方向のコンセンサスを取得するための並列コンテキスト学習戦略を提案する。
論文 参考訳(メタデータ) (2024-01-07T11:38:15Z) - Bidirectional Trained Tree-Structured Decoder for Handwritten
Mathematical Expression Recognition [51.66383337087724]
Handwriting Mathematical Expression Recognition (HMER) タスクは、OCRの分野における重要な分岐である。
近年の研究では、双方向コンテキスト情報の導入により、HMERモデルの性能が大幅に向上することが示されている。
本稿では,MF-SLT と双方向非同期トレーニング (BAT) 構造を提案する。
論文 参考訳(メタデータ) (2023-12-31T09:24:21Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - DenseGAP: Graph-Structured Dense Correspondence Learning with Anchor
Points [15.953570826460869]
2つの画像間の密接な対応を確立することは、基本的なコンピュータビジョンの問題である。
我々は、アンカーポイントに条件付きグラフ構造化ニューラルネットワークを用いたDense対応学習のための新しいソリューションであるDenseGAPを紹介する。
提案手法は,ほとんどのベンチマークにおいて対応学習の最先端化を図っている。
論文 参考訳(メタデータ) (2021-12-13T18:59:30Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Disentangled Non-Local Neural Networks [68.92293183542131]
局所的でないブロックを深く研究し、注意を2つの項に分けることができることを示した。
両項の学習を容易にするために両項を分離した非局所ブロックを提示する。
論文 参考訳(メタデータ) (2020-06-11T17:59:22Z) - ENIGMA Anonymous: Symbol-Independent Inference Guiding Machine (system
description) [0.4893345190925177]
本稿では,飽和式自動定理証明器の勾配押し上げと神経誘導の実装について述べる。
勾配ブースティング法では、論理式のアリティに基づく符号化を考慮し、手動で抽象的な特徴を生成できる。
ニューラルネットワークでは,シンボルに依存しないグラフニューラルネットワーク(GNN)と,その用語や節の埋め込みを用いる。
論文 参考訳(メタデータ) (2020-02-13T09:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。