論文の概要: Inconsistencies in TeX-Produced Documents
- arxiv url: http://arxiv.org/abs/2407.15511v2
- Date: Tue, 3 Sep 2024 15:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 17:11:28.213762
- Title: Inconsistencies in TeX-Produced Documents
- Title(参考訳): TeX生成文書の不整合性
- Authors: Jovyn Tan, Manuel Rigger,
- Abstract要約: 不整合は多種多様である。
異なるバージョンのエンジンです
流通
この調査とは無関係に修正された2つの新しいバグと5つの既存のバグを特定しました。
- 参考スコア(独自算出の注目度): 3.3302293148249125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TeX is a widely-used typesetting system adopted by most publishers and professional societies. While TeX is responsible for generating a significant number of documents, irregularities in the TeX ecosystem may produce inconsistent documents. These inconsistencies may occur across different TeX engines or different versions of TeX distributions, resulting in failures to adhere to formatting specifications, or the same document rendering differently for different authors. In this work, we investigate and quantify the robustness of the TeX ecosystem through a large-scale study of 432 documents. We developed an automated pipeline to evaluate the cross-engine and cross-version compatibility of the TeX ecosystem. We found significant inconsistencies in the outputs of different TeX engines: only 0.2% of documents compiled to identical output with XeTeX and PDFTeX due to a lack of cross-engine support in popular LaTeX packages and classes used in academic conferences. A smaller$\unicode{x2014}$yet significant$\unicode{x2014}$extent of inconsistencies was found across different TeX Live distributions, with only 42.1% of documents producing the same output from 2020 to 2023. Our automated pipeline additionally reduces the human effort in bug-finding: from a sample of 10 unique root causes of inconsistencies, we identified two new bugs in LaTeX packages and five existing bugs that were fixed independently of this study. We also observed potentially unintended inconsistencies across different TeX Live distributions beyond the updates listed in changelogs. We expect that this study will help authors of TeX documents to avoid unexpected outcomes by understanding how they may be affected by the often undocumented subtleties of the TeX ecosystem, while benefiting developers by demonstrating how different implementations result in unintended inconsistencies.
- Abstract(参考訳): TeXは、ほとんどの出版社やプロ社会で広く使われているタイプセットシステムである。
TeXは相当数のドキュメントを生成する責任があるが、TeXエコシステムの不規則性は一貫性のないドキュメントを生成する可能性がある。
これらの矛盾は、異なるTeXエンジンまたは異なるバージョンのTeXディストリビューションで発生し、結果としてフォーマット仕様に従わなかったり、異なる著者に対して異なる方法で同じ文書がレンダリングされたりする。
本研究では,432文書の大規模研究を通じて,TeXエコシステムのロバスト性を調査し,定量化する。
我々は,TeXエコシステムのクロスエンジンおよびクロスバージョン互換性を評価する自動パイプラインを開発した。
XeTeXとPDFTeXで同じ出力にコンパイルされた文書のわずか0.2%は、一般的なLaTeXパッケージと学術会議で使用されるクラスでクロスエンジンサポートが欠如しているため、異なるTeXエンジンの出力に重大な矛盾があることがわかった。
より小さな$\unicode{x2014}$yet significant$\unicode{x2014}$extent of inconsistencys were found across different TeX Live distributions, with only 42.1% document creating the same output from 2020 to 2023。
10のユニークな根本原因のサンプルから、LaTeXパッケージに2つの新しいバグと、この調査とは独立して修正された5つの既存のバグを特定しました。
また、変更ログに記載された更新以外の、さまざまなTeX Liveディストリビューションにおける意図しない不整合も観測した。
我々は、この研究がTeXの文書作成者にとって、予想外の結果を避けるのに役立ち、TEXエコシステムのしばしば文書化されていない微妙さにどのように影響を受けるかを理解しながら、異なる実装が意図しない不整合をもたらすかを実証することで、開発者に利益をもたらすことを期待している。
関連論文リスト
- Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。
また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。
本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文 参考訳(メタデータ) (2024-10-13T02:22:14Z) - LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement [11.931911831112357]
LATTEは、式と表の両方のソース抽出精度を改善し、既存の技術とGPT-4Vより優れている。
本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
論文 参考訳(メタデータ) (2024-09-21T17:18:49Z) - TeXBLEU: Automatic Metric for Evaluate LaTeX Format [4.337656290539519]
我々は,n-gram-based BLEU で構築した形式を用いて,数式評価のための指標 BLEU を提案する。
提案したBLEUは、arXiv紙のデータセットに基づいて訓練されたトークン化器と、位置エンコーディングによる微調整された埋め込みモデルから構成される。
論文 参考訳(メタデータ) (2024-09-10T16:54:32Z) - Toward Reproducibility of Digital Twin Research: Exemplified with the PiCar-X [49.44419860570116]
デジタル双生児は、モノのインターネットと産業の4.0でますます重要になっている。
dtsの概念には統一された定義がなく、検証の課題に直面している。
本稿では,様々なdt概念を再現可能な実験室で実証する。
論文 参考訳(メタデータ) (2024-08-25T15:34:00Z) - MixTex: Unambiguous Recognition Should Not Rely Solely on Real Data [0.0]
本稿では,低バイアス多言語認識のためのエンドツーエンドOCRモデルであるMixTexを紹介する。
例えば、e-t$ を $e-t$ と誤解釈する場合などである。
本稿では,このバイアスを軽減するために,革新的なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T21:38:36Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - X-Shot: A Unified System to Handle Frequent, Few-shot and Zero-shot
Learning Simultaneously in Classification [51.07629536521054]
X-shot、freq-shot、 few-shot、zero-shotラベルが予め定義された制限なしに共起する現実世界のコンテキストを反映する。
Xショットは、オープンドメインの一般化と、さまざまなラベルシナリオを管理するのに十分なシステムを考案することに焦点を当てている。
私たちの知る限りでは、これはX が可変のままである X-shot Learning に対処する最初の作業である。
論文 参考訳(メタデータ) (2024-03-06T17:13:24Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Reproducible Science with LaTeX [4.09920839425892]
本稿では,文書から外部ソースコードを実行する手順を提案する。
結果のPortable Document Format (pdf)ファイルに自動的に計算出力が含まれている。
論文 参考訳(メタデータ) (2020-10-04T04:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。