論文の概要: Automated LaTeX Code Generation from Handwritten Math Expressions Using Vision Transformer
- arxiv url: http://arxiv.org/abs/2412.03853v2
- Date: Sat, 07 Dec 2024 10:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 11:30:46.388593
- Title: Automated LaTeX Code Generation from Handwritten Math Expressions Using Vision Transformer
- Title(参考訳): 視覚変換器を用いた手書き式からのLaTeXコードの自動生成
- Authors: Jayaprakash Sundararaj, Akhil Vyas, Benjamin Gonzalez-Maldonado,
- Abstract要約: 数式表現画像を対応するコードに変換するタスクに,高度なトランスフォーマーアーキテクチャを適用した。
ベースラインとして、現在の最先端CNNエンコーダとLSTMデコーダを利用する。
また、CNNエンコーダをトレーニング済みのResNet50モデルに置き換え、グレースケール入力を組み込むことで、CNN-RNNアーキテクチャの強化についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transforming mathematical expressions into LaTeX poses a significant challenge. In this paper, we examine the application of advanced transformer-based architectures to address the task of converting handwritten or digital mathematical expression images into corresponding LaTeX code. As a baseline, we utilize the current state-of-the-art CNN encoder and LSTM decoder. Additionally, we explore enhancements to the CNN-RNN architecture by replacing the CNN encoder with the pretrained ResNet50 model with modification to suite the grey scale input. Further, we experiment with vision transformer model and compare with Baseline and CNN-LSTM model. Our findings reveal that the vision transformer architectures outperform the baseline CNN-RNN framework, delivering higher overall accuracy and BLEU scores while achieving lower Levenshtein distances. Moreover, these results highlight the potential for further improvement through fine-tuning of model parameters. To encourage open research, we also provide the model implementation, enabling reproduction of our results and facilitating further research in this domain.
- Abstract(参考訳): LaTeXに数学的表現を変換することは大きな課題となる。
本稿では,手書きあるいはデジタルの数学的表現画像を対応するLaTeXコードに変換するタスクに,高度なトランスフォーマーアーキテクチャを適用した。
ベースラインとして、現在の最先端CNNエンコーダとLSTMデコーダを利用する。
さらに、CNNエンコーダをトレーニング済みのResNet50モデルに置き換え、グレースケール入力を組み込むことで、CNN-RNNアーキテクチャの強化を検討する。
さらに、視覚変換器モデルを用いて実験を行い、BaselineとCNN-LSTMモデルと比較する。
その結果,視覚変換器のアーキテクチャはベースラインのCNN-RNNフレームワークよりも優れており,全体の精度とBLEUスコアが向上し,Levenshtein距離が低くなった。
さらに、これらの結果はモデルパラメータの微調整によるさらなる改善の可能性を強調している。
オープンな研究を促進するため、我々はモデルの実装も提供し、その結果の再現を可能にし、この領域におけるさらなる研究を容易にする。
関連論文リスト
- Combined CNN and ViT features off-the-shelf: Another astounding baseline for recognition [49.14350399025926]
本稿では,ImageNet Large Scale Visual Recognition Challengeのために開発された事前学習型アーキテクチャを,近視認識に適用する。
CNNとViTの中間層の特徴は、近視画像に基づいて個人を認識するのに適した方法である。
論文 参考訳(メタデータ) (2024-07-28T11:52:36Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - High-Performance Transformers for Table Structure Recognition Need Early
Convolutions [25.04573593082671]
既存のアプローチでは、ビジュアルエンコーダには古典的畳み込みニューラルネットワーク(CNN)、テキストデコーダにはトランスフォーマーが使用されている。
表現力を犠牲にすることなくテーブル構造認識(TSR)のための軽量ビジュアルエンコーダを設計する。
畳み込みステムは従来のCNNバックボーンのパフォーマンスとより単純なモデルで一致できることが判明した。
論文 参考訳(メタデータ) (2023-11-09T18:20:52Z) - Comparative study of Transformer and LSTM Network with attention
mechanism on Image Captioning [0.0]
本研究ではTransformerとLSTMをMS-COCOデータセットのアテンションブロックモデルと比較する。
注目ブロックモデルを用いたトランスフォーマーとLSTMについて,その精度について検討した。
論文 参考訳(メタデータ) (2023-03-05T11:45:53Z) - Image Captioning In the Transformer Age [71.06437715212911]
Image Captioning (IC)は、CNN-RNNエンコーダ・デコーダアーキテクチャに様々な技術を統合することで驚くべき発展を遂げた。
本稿では,ICと一般的な自己教師型学習パラダイムの関連性について分析する。
論文 参考訳(メタデータ) (2022-04-15T08:13:39Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - Handwritten Mathematical Expression Recognition with Bidirectionally
Trained Transformer [2.952085248753861]
トランスデコーダデコーダを使用してRNNベースのデコーダを置き換える。
実験により, CROHME 2014における現在の最先端手法のExpRateを2.23%改善した。
論文 参考訳(メタデータ) (2021-05-06T03:11:54Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。