論文の概要: Inconsistencies in TeX-Produced Documents
- arxiv url: http://arxiv.org/abs/2407.15511v2
- Date: Tue, 3 Sep 2024 15:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 17:11:28.213762
- Title: Inconsistencies in TeX-Produced Documents
- Title(参考訳): TeX生成文書の不整合性
- Authors: Jovyn Tan, Manuel Rigger,
- Abstract要約: 不整合は多種多様である。
異なるバージョンのエンジンです
流通
この調査とは無関係に修正された2つの新しいバグと5つの既存のバグを特定しました。
- 参考スコア(独自算出の注目度): 3.3302293148249125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TeX is a widely-used typesetting system adopted by most publishers and professional societies. While TeX is responsible for generating a significant number of documents, irregularities in the TeX ecosystem may produce inconsistent documents. These inconsistencies may occur across different TeX engines or different versions of TeX distributions, resulting in failures to adhere to formatting specifications, or the same document rendering differently for different authors. In this work, we investigate and quantify the robustness of the TeX ecosystem through a large-scale study of 432 documents. We developed an automated pipeline to evaluate the cross-engine and cross-version compatibility of the TeX ecosystem. We found significant inconsistencies in the outputs of different TeX engines: only 0.2% of documents compiled to identical output with XeTeX and PDFTeX due to a lack of cross-engine support in popular LaTeX packages and classes used in academic conferences. A smaller$\unicode{x2014}$yet significant$\unicode{x2014}$extent of inconsistencies was found across different TeX Live distributions, with only 42.1% of documents producing the same output from 2020 to 2023. Our automated pipeline additionally reduces the human effort in bug-finding: from a sample of 10 unique root causes of inconsistencies, we identified two new bugs in LaTeX packages and five existing bugs that were fixed independently of this study. We also observed potentially unintended inconsistencies across different TeX Live distributions beyond the updates listed in changelogs. We expect that this study will help authors of TeX documents to avoid unexpected outcomes by understanding how they may be affected by the often undocumented subtleties of the TeX ecosystem, while benefiting developers by demonstrating how different implementations result in unintended inconsistencies.
- Abstract(参考訳): TeXは、ほとんどの出版社やプロ社会で広く使われているタイプセットシステムである。
TeXは相当数のドキュメントを生成する責任があるが、TeXエコシステムの不規則性は一貫性のないドキュメントを生成する可能性がある。
これらの矛盾は、異なるTeXエンジンまたは異なるバージョンのTeXディストリビューションで発生し、結果としてフォーマット仕様に従わなかったり、異なる著者に対して異なる方法で同じ文書がレンダリングされたりする。
本研究では,432文書の大規模研究を通じて,TeXエコシステムのロバスト性を調査し,定量化する。
我々は,TeXエコシステムのクロスエンジンおよびクロスバージョン互換性を評価する自動パイプラインを開発した。
XeTeXとPDFTeXで同じ出力にコンパイルされた文書のわずか0.2%は、一般的なLaTeXパッケージと学術会議で使用されるクラスでクロスエンジンサポートが欠如しているため、異なるTeXエンジンの出力に重大な矛盾があることがわかった。
より小さな$\unicode{x2014}$yet significant$\unicode{x2014}$extent of inconsistencys were found across different TeX Live distributions, with only 42.1% document creating the same output from 2020 to 2023。
10のユニークな根本原因のサンプルから、LaTeXパッケージに2つの新しいバグと、この調査とは独立して修正された5つの既存のバグを特定しました。
また、変更ログに記載された更新以外の、さまざまなTeX Liveディストリビューションにおける意図しない不整合も観測した。
我々は、この研究がTeXの文書作成者にとって、予想外の結果を避けるのに役立ち、TEXエコシステムのしばしば文書化されていない微妙さにどのように影響を受けるかを理解しながら、異なる実装が意図しない不整合をもたらすかを実証することで、開発者に利益をもたらすことを期待している。
関連論文リスト
- MixTex: Unambiguous Recognition Should Not Rely Solely on Real Data [0.0]
本稿では,低バイアス多言語認識のためのエンドツーエンドOCRモデルであるMixTexを紹介する。
例えば、e-t$ を $e-t$ と誤解釈する場合などである。
本稿では,このバイアスを軽減するために,革新的なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T21:38:36Z) - MathNet: A Data-Centric Approach for Printed Mathematical Expression Recognition [2.325171167252542]
ベンチマークデータセットim2latex-100kの改良版を提示し,30フォントを特徴とする。
第2に,論文からMEを抽出した実世界のデータセット realFormula を紹介する。
第3に、畳み込み視覚変換器をベースとしたMERモデルMathNetを開発し、4つのテストセットすべてにおいて優れた結果を得た。
論文 参考訳(メタデータ) (2024-04-21T14:03:34Z) - X-Shot: A Unified System to Handle Frequent, Few-shot and Zero-shot
Learning Simultaneously in Classification [51.07629536521054]
X-shot、freq-shot、 few-shot、zero-shotラベルが予め定義された制限なしに共起する現実世界のコンテキストを反映する。
Xショットは、オープンドメインの一般化と、さまざまなラベルシナリオを管理するのに十分なシステムを考案することに焦点を当てている。
私たちの知る限りでは、これはX が可変のままである X-shot Learning に対処する最初の作業である。
論文 参考訳(メタデータ) (2024-03-06T17:13:24Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - Precise Zero-Shot Dense Retrieval without Relevance Labels [60.457378374671656]
仮説文書埋め込み(英: hypothetical Document Embeddings, HyDE)は、ゼロショット高密度検索システムである。
我々は,HyDEが最先端の非教師付き高密度検索器であるContrieverを著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-20T18:09:52Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Machine Translation of Mathematical Text [0.0]
数学的テキストを含む文書を対象とした機械翻訳システムPolyMath Translatorを実装した。
現在の実装は英語をフランス語に翻訳し、数学文の保留テストコーパスでBLEUスコアが53.5に達した。
さらに編集することなくPDFにコンパイルできる文書を生成する。
論文 参考訳(メタデータ) (2020-10-11T11:59:40Z) - Reproducible Science with LaTeX [4.09920839425892]
本稿では,文書から外部ソースコードを実行する手順を提案する。
結果のPortable Document Format (pdf)ファイルに自動的に計算出力が含まれている。
論文 参考訳(メタデータ) (2020-10-04T04:04:07Z) - Fast(er) Reconstruction of Shredded Text Documents via Self-Supervised
Deep Asymmetric Metric Learning [62.34197797857823]
細断文書の自動復元における中心的な問題は、細断文書の相互互換性評価である。
本研究は,推定回数を線形にスケールするペアワイド互換性を測るスケーラブルな深層学習手法を提案する。
提案手法は,505個のシュレッダーを持つテストインスタンスに対して,22倍の高速化を実現した最先端技術に匹敵する精度を有する。
論文 参考訳(メタデータ) (2020-03-23T03:22:06Z) - KBSET -- Knowledge-Based Support for Scholarly Editing and Text
Processing with Declarative LaTeX Markup and a Core Written in SWI-Prolog [0.0]
KBSETは特別に開発されたスタイルと、SWI-Prologで記述されたプロトタイプコアシステムを含んでいる。
KBSETは、表記で表される宣言的なアプリケーション固有のマークアップを処理できる。
KBSETは特別に開発されたスタイルと、SWI-Prologで記述されたプロトタイプコアシステムを含んでいる。
論文 参考訳(メタデータ) (2020-02-24T15:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。