論文の概要: Automated LaTeX Code Generation from Handwritten Math Expressions Using Vision Transformer
- arxiv url: http://arxiv.org/abs/2412.03853v2
- Date: Sat, 07 Dec 2024 10:55:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 11:30:46.388593
- Title: Automated LaTeX Code Generation from Handwritten Math Expressions Using Vision Transformer
- Title(参考訳): 視覚変換器を用いた手書き式からのLaTeXコードの自動生成
- Authors: Jayaprakash Sundararaj, Akhil Vyas, Benjamin Gonzalez-Maldonado,
- Abstract要約: 数式表現画像を対応するコードに変換するタスクに,高度なトランスフォーマーアーキテクチャを適用した。
ベースラインとして、現在の最先端CNNエンコーダとLSTMデコーダを利用する。
また、CNNエンコーダをトレーニング済みのResNet50モデルに置き換え、グレースケール入力を組み込むことで、CNN-RNNアーキテクチャの強化についても検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transforming mathematical expressions into LaTeX poses a significant challenge. In this paper, we examine the application of advanced transformer-based architectures to address the task of converting handwritten or digital mathematical expression images into corresponding LaTeX code. As a baseline, we utilize the current state-of-the-art CNN encoder and LSTM decoder. Additionally, we explore enhancements to the CNN-RNN architecture by replacing the CNN encoder with the pretrained ResNet50 model with modification to suite the grey scale input. Further, we experiment with vision transformer model and compare with Baseline and CNN-LSTM model. Our findings reveal that the vision transformer architectures outperform the baseline CNN-RNN framework, delivering higher overall accuracy and BLEU scores while achieving lower Levenshtein distances. Moreover, these results highlight the potential for further improvement through fine-tuning of model parameters. To encourage open research, we also provide the model implementation, enabling reproduction of our results and facilitating further research in this domain.
- Abstract(参考訳): LaTeXに数学的表現を変換することは大きな課題となる。
本稿では,手書きあるいはデジタルの数学的表現画像を対応するLaTeXコードに変換するタスクに,高度なトランスフォーマーアーキテクチャを適用した。
ベースラインとして、現在の最先端CNNエンコーダとLSTMデコーダを利用する。
さらに、CNNエンコーダをトレーニング済みのResNet50モデルに置き換え、グレースケール入力を組み込むことで、CNN-RNNアーキテクチャの強化を検討する。
さらに、視覚変換器モデルを用いて実験を行い、BaselineとCNN-LSTMモデルと比較する。
その結果,視覚変換器のアーキテクチャはベースラインのCNN-RNNフレームワークよりも優れており,全体の精度とBLEUスコアが向上し,Levenshtein距離が低くなった。
さらに、これらの結果はモデルパラメータの微調整によるさらなる改善の可能性を強調している。
オープンな研究を促進するため、我々はモデルの実装も提供し、その結果の再現を可能にし、この領域におけるさらなる研究を容易にする。
関連論文リスト
- TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - Image-to-LaTeX Converter for Mathematical Formulas and Text [0.0]
我々は,Swin TransformerエンコーダとGPT-2デコーダを備えたベースモデルと,手書き公式で訓練されたローランド適応(LoRA)で強化された微調整バージョンとを2つのモデルで構築する。
次に、特殊モデルのBLEU性能を、Pix2Text、TexTeller、Sumenといった他の類似モデルと手書きテストセットで比較する。
論文 参考訳(メタデータ) (2024-08-07T18:04:01Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - Enhancing Diffusion Models with Text-Encoder Reinforcement Learning [63.41513909279474]
テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。
近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。
我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
論文 参考訳(メタデータ) (2023-11-27T09:39:45Z) - Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval [68.61855682218298]
クロスモーダル検索法では、画像とテキストの異なるアーキテクチャを持つ2ストリームエンコーダを用いる。
視覚タスクにおけるトランスフォーマーの最近の進歩に触発されて,トランスフォーマーとエンコーダアーキテクチャを両モードで統一することを提案する。
我々は、画像変換器、テキスト変換器、階層アライメントモジュールからなる2ストリーム変換器(textbfHierarchical Alignment Transformers, HAT)を純粋にベースとしたクロスモーダル検索フレームワークを設計する。
論文 参考訳(メタデータ) (2023-08-08T15:43:59Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Image Captioning In the Transformer Age [71.06437715212911]
Image Captioning (IC)は、CNN-RNNエンコーダ・デコーダアーキテクチャに様々な技術を統合することで驚くべき発展を遂げた。
本稿では,ICと一般的な自己教師型学習パラダイムの関連性について分析する。
論文 参考訳(メタデータ) (2022-04-15T08:13:39Z) - Swin-Unet: Unet-like Pure Transformer for Medical Image Segmentation [63.46694853953092]
Swin-Unetは、医用画像セグメンテーション用のUnetライクなトランスフォーマーである。
トークン化されたイメージパッチは、TransformerベースのU字型デコーダデコーダアーキテクチャに供給される。
論文 参考訳(メタデータ) (2021-05-12T09:30:26Z) - ConvMath: A Convolutional Sequence Network for Mathematical Expression
Recognition [11.645568743440087]
ConvMathの性能は、103556サンプルを含むIM2LATEX-100Kというオープンデータセットで評価される。
提案手法は,従来の手法よりも精度と効率性が向上した。
論文 参考訳(メタデータ) (2020-12-23T12:08:18Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Hyperparameter Analysis for Image Captioning [0.0]
我々は,CNN+LSTMとCNN+Transformerの2つのアーキテクチャを用いて,最先端画像キャプション手法の詳細な感度解析を行う。
実験で最大の利点は、CNNエンコーダの微調整がベースラインを上回っていることだ。
論文 参考訳(メタデータ) (2020-06-19T01:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。