Fugu-MT 論文翻訳(概要): Image-to-LaTeX Converter for Mathematical Formulas and Text

論文の概要: Image-to-LaTeX Converter for Mathematical Formulas and Text

arxiv url: http://arxiv.org/abs/2408.04015v1
Date: Wed, 7 Aug 2024 18:04:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-09 17:29:51.403393
Title: Image-to-LaTeX Converter for Mathematical Formulas and Text
Title（参考訳）: 数式とテキストのためのイメージ・トゥ・ラテX変換器
Authors: Daniil Gurgurov, Aleksey Morshnev,
Abstract要約: 我々は,Swin TransformerエンコーダとGPT-2デコーダを備えたベースモデルと,手書き公式で訓練されたローランド適応(LoRA)で強化された微調整バージョンとを2つのモデルで構築する。次に、特殊モデルのBLEU性能を、Pix2Text、TexTeller、Sumenといった他の類似モデルと手書きテストセットで比較する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this project, we train a vision encoder-decoder model to generate LaTeX code from images of mathematical formulas and text. Utilizing a diverse collection of image-to-LaTeX data, we build two models: a base model with a Swin Transformer encoder and a GPT-2 decoder, trained on machine-generated images, and a fine-tuned version enhanced with Low-Rank Adaptation (LoRA) trained on handwritten formulas. We then compare the BLEU performance of our specialized model on a handwritten test set with other similar models, such as Pix2Text, TexTeller, and Sumen. Through this project, we contribute open-source models for converting images to LaTeX and provide from-scratch code for building these models with distributed training and GPU optimizations.
Abstract（参考訳）: 本稿では,数式とテキストの画像からLaTeXコードを生成するために,視覚エンコーダデコーダモデルを訓練する。スウィントランスフォーマーエンコーダとGPT-2デコーダを備えたベースモデルと,手書き公式でトレーニングしたローランド適応(LoRA)による微調整バージョンという,多種多様なイメージ・トゥ・ラテXデータを利用する2つのモデルを構築した。次に、特殊モデルのBLEU性能を、Pix2Text、TexTeller、Sumenといった他の類似モデルと手書きテストセットで比較する。このプロジェクトを通じて、イメージをLaTeXに変換するためのオープンソースモデルをコントリビュートし、これらのモデルを分散トレーニングとGPU最適化で構築するためのオフスクラッチコードを提供する。

関連論文リスト

Automated LaTeX Code Generation from Handwritten Math Expressions Using Vision Transformer [0.0]
数式表現画像を対応するコードに変換するタスクに,高度なトランスフォーマーアーキテクチャを適用した。ベースラインとして、現在の最先端CNNエンコーダとLSTMデコーダを利用する。また、CNNエンコーダをトレーニング済みのResNet50モデルに置き換え、グレースケール入力を組み込むことで、CNN-RNNアーキテクチャの強化についても検討する。
論文参考訳（メタデータ） (2024-12-05T03:58:13Z)
Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文参考訳（メタデータ） (2024-07-03T08:15:39Z)
MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文参考訳（メタデータ） (2024-04-21T14:03:34Z)
MathWriting: A Dataset For Handwritten Mathematical Expression Recognition [0.9012198585960439]
MathWritingは、これまでで最大のオンライン手書き数式データセットである。 1つのMath Writingサンプルは、タッチスクリーンに書かれた式と対応する式で構成されている。このデータセットは、オフラインのHME認識のためにレンダリング形式で使用することもできる。
論文参考訳（メタデータ） (2024-04-16T16:10:23Z)
BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing [73.74570290836152]
BLIP-Diffusionはマルチモーダル制御をサポートする新しい主観駆動画像生成モデルである。他の主観駆動生成モデルとは異なり、BLIP-Diffusionは主観表現を提供するために事前訓練された新しいマルチモーダルエンコーダを導入する。
論文参考訳（メタデータ） (2023-05-24T04:51:04Z)
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文参考訳（メタデータ） (2023-03-17T15:37:07Z)
Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for Text-to-Image Generation [25.14323931233249]
階層型ビジュアルトランスフォーマとセマンティックレイアウトを取り入れたシーングラフに基づくテキスト・画像拡散モデルを提案する。提案モデルでは, 実体と関係の特徴ベクトルを抽出し, 拡散モデルに関係付ける。我々はまた、CNN畳み込み操作に起因する問題に対処できるSwinv2-Unetと呼ばれるSwin-TransformerベースのUNetアーキテクチャも導入した。
論文参考訳（メタデータ） (2022-10-18T02:50:34Z)
Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文参考訳（メタデータ） (2021-11-29T11:01:49Z)
LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文参考訳（メタデータ） (2021-11-27T01:54:45Z)
Handwritten Mathematical Expression Recognition with Bidirectionally Trained Transformer [2.952085248753861]
トランスデコーダデコーダを使用してRNNベースのデコーダを置き換える。実験により, CROHME 2014における現在の最先端手法のExpRateを2.23%改善した。
論文参考訳（メタデータ） (2021-05-06T03:11:54Z)
XGPT: Cross-modal Generative Pre-Training for Image Captioning [80.26456233277435]
XGPTは画像キャプチャのためのクロスモーダル生成前訓練法である。テキスト・ツー・イメージ・キャプション・ジェネレータを3つの新しい生成タスクで事前訓練するように設計されている。 XGPTはタスク固有のアーキテクチャ変更なしに微調整できる。
論文参考訳（メタデータ） (2020-03-03T12:13:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。