論文の概要: Scaling Accessible Mathematics on arXiv: HTML Conversion and MathML 4
- arxiv url: http://arxiv.org/abs/2605.16562v1
- Date: Fri, 15 May 2026 19:04:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.697007
- Title: Scaling Accessible Mathematics on arXiv: HTML Conversion and MathML 4
- Title(参考訳): arXiv上のアクセシブル数学のスケーリング: HTML変換とMathML 4
- Authors: Deyan Ginev, Brian Caruso, Bruce Miller, Jeff Sank, Jacob Weiskoff,
- Abstract要約: arXivのHTML Papers製品の開発が進行中であることを報告します。
i) コミュニティ主導によるHTMLの忠実さとサービスの健全性の改善。
HTMLMLのプログレッシブなRustポートで、計算コストを削減し、提出時により高速なプレビューを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We report on the ongoing development of arXiv's HTML Papers offering, available on every new TeX/LaTeX submission since its initial release in 2023. The main highlights from 2025 and early 2026 are: (i) community-driven improvements to HTML fidelity and service health, with roughly half of 6,000 user reports resolved; (ii) corpus-scale conversion work aimed at 90% error-free HTML (currently 75%); (iii) initial MathML 4 Intent annotations for accessible speech output; (iv) an in-progress Rust port of LaTeXML, reducing compute costs and enabling faster previews on submission. The arXiv HTML Papers project remains experimental, but is gradually maturing as we better understand the needs of arXiv's readers and the technical opportunities presented by new standards and by advances in programming languages and AI.
- Abstract(参考訳): 2023年の初リリース以来、新しいTeX/LaTeXサブミッションで利用できるarXivのHTML Papers製品の開発が進行中であることを報告します。
2025年から2026年にかけてのハイライトは以下のとおりである。
(i)コミュニティ主導によるHTMLの忠実さとサービスの健全性の改善。約6,000人のユーザレポートが解決した。
(ii)90%のエラーなしHTML(現在の75%)を対象としたコーパススケール変換作業。
(iii)初期MathML 4 アクセシブル音声出力用インテントアノテーション
(iv) LaTeXMLのプログレッシブなRustポートで、計算コストを削減し、提出時により高速なプレビューを可能にする。
arXiv HTML Papersプロジェクトは、まだ実験段階ですが、arXivの読者のニーズと、新しい標準やプログラミング言語やAIの進歩によってもたらされる技術的機会をよりよく理解するため、徐々に成熟しています。
関連論文リスト
- Paper2Web: Let's Make Your Paper Alive! [51.75896846964824]
学術Webページ生成を評価するためのベンチマークデータセットとフレームワークであるPaper2Webを紹介する。
PWAgentは、科学論文をインタラクティブでマルチメディアに富んだ学術ホームページに変換する自律パイプラインである。
論文 参考訳(メタデータ) (2025-10-17T17:35:58Z) - LaTeXTrans: Structured LaTeX Translation with Multi-Agent Coordination [46.53643691093418]
本稿では,構造化文書の翻訳を目的とした協調型マルチエージェントシステムMTTransを紹介する。
Transは、6つの特殊エージェントを通じてフォーマットの保存、構造的忠実性、一貫性を保証する。
論文 参考訳(メタデータ) (2025-08-26T08:17:26Z) - $A^2R^2$: Advancing Img2LaTeX Conversion via Visual Reasoning with Attention-Guided Refinement [53.14935624161711]
視覚言語モデル(VLM)は、様々な視覚的理解タスクにおいて顕著な進歩を遂げている。
A2R2$:Advancing Img2La Conversion via Visual Reasoning with Attention-Guided Refinementを提案する。
有効評価のために,1,100個の慎重にキュレートされた,挑戦的なサンプルからなる新しいデータセットImg2LaTex-Hard-1Kを導入する。
論文 参考訳(メタデータ) (2025-07-28T14:41:57Z) - TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - MathBridge: A Large Corpus Dataset for Translating Spoken Mathematical Expressions into $LaTeX$ Formulas for Improved Readability [10.757551947236879]
数学的な文を公式に翻訳する最初の広範囲なデータセットであるMathBridgeを紹介する。
MathBridgeは、数学的な音声文から公式に変換するための事前訓練された言語モデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-08-07T18:07:15Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text [32.15651290548974]
OpenWebMathは、Common Crawlの14.7Bトークンを含む作品にインスパイアされたオープンデータセットである。
OpenWebMath上で1.4Bのパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-10T16:57:28Z) - The Semantic Scholar Open Data Platform [92.2948743167744]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。