論文の概要: AI-Friendly LaTeX: Using LaTeX Code as a Knowledge Source for Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2605.22923v1
- Date: Thu, 21 May 2026 18:01:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.047112
- Title: AI-Friendly LaTeX: Using LaTeX Code as a Knowledge Source for Retrieval-Augmented Generation
- Title(参考訳): AIフレンドリーなLaTeX:LaTeXコードを検索拡張生成の知識ソースとして使う
- Authors: Tom Verhoeff,
- Abstract要約: 大規模な言語モデルは、教科書や講義ノート、プログラミング演習に関する質問に答えることができる。
数学的および技術的材料にとって、原典はPDFの抽出においてしばしば失われたり歪んだりする構造情報、ラベル、分割コマンド、マクロ、権威的意図を含むため、PDFよりも出発点として優れている。
本稿では、ソースをコンパイルした補助ファイルとオプションの著者アノテーションとともに、ベクトルデータベースのインデックス作成に適したチャンクに変換するための、フォーカスされた事前処理アプローチについて述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models can answer questions about textbooks, lecture notes, and programming exercises more reliably when their answers are grounded in an explicit knowledge source. Retrieval-augmented generation (RAG) is a common approach: relevant fragments of a document are retrieved and inserted into the model context before answering. For mathematical and technical material, the original LaTeX source can be a better starting point than a PDF, because it contains structural information, labels, sectioning commands, macros, and authorial intent that are often lost or distorted in PDF extraction. However, LaTeX source is not automatically AI-friendly. Cross-references must be resolved, custom macros must be interpreted, exercises and examples must be identified, and author-supplied semantic metadata may be needed. This article describes a focused preprocessing approach for turning LaTeX source, together with its compiled auxiliary files and optional author annotations, into Markdown and JSONL chunks suitable for indexing in a vector database.
- Abstract(参考訳): 大規模な言語モデルは、教科書や講義ノート、プログラミング演習に関する質問に答えることができる。
Retrieval-augmented Generation (RAG) は、ドキュメントの関連するフラグメントを検索して、応答する前にモデルコンテキストに挿入する、という一般的なアプローチである。
数学的および技術的材料にとって、オリジナルのLaTeXソースはPDF抽出でしばしば失われたり歪んだりする構造情報、ラベル、分割コマンド、マクロ、権威意図を含むため、PDFよりも出発点として優れている。
しかし、LaTeXソースは自動的にAIフレンドリーではない。
相互参照を解決し、カスタムマクロを解釈し、エクササイズとサンプルを識別し、著者が提供するセマンティックメタデータが必要になるかもしれない。
この記事では、LaTeXソースをコンパイルされた補助ファイルとオプションの著者アノテーションとともに、ベクトルデータベースのインデックス付けに適したMarkdownおよびJSONLチャンクに変換するためのフォーカスされた前処理アプローチについて説明する。
関連論文リスト
- MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。
MoDora は半構造化文書解析のための LLM を利用したシステムである。
実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-26T14:48:49Z) - Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - LaTeXTrans: Structured LaTeX Translation with Multi-Agent Coordination [46.53643691093418]
本稿では,構造化文書の翻訳を目的とした協調型マルチエージェントシステムMTTransを紹介する。
Transは、6つの特殊エージェントを通じてフォーマットの保存、構造的忠実性、一貫性を保証する。
論文 参考訳(メタデータ) (2025-08-26T08:17:26Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - TeXpert: A Multi-Level Benchmark for Evaluating LaTeX Code Generation by LLMs [0.0]
LLM(Large Language Models)は、研究者が出版可能な資料を作成できる有望な機会を提供する。
我々のベンチマークデータセットは、科学文書の構成要素に焦点を当てたコードを生成するための自然言語のプロンプトである。
オープンおよびクローズドソース LLM に対する評価では,複数の重要な知見が浮き彫りにされている。
論文 参考訳(メタデータ) (2025-06-20T13:39:16Z) - LATTE: Improving Latex Recognition for Tables and Formulae with Iterative Refinement [11.931911831112357]
ソースとレンダリングされたPDF画像は、特に公式やテーブルでは、大きく異なるように見える。
以前の作業は、単一のイテレーションでソースを生成し、複雑な公式に苦労する。
本稿では,認識のための最初の反復的改良フレームワークであるLATTEを提案する。
論文 参考訳(メタデータ) (2024-09-21T17:18:49Z) - Towards Semantic Markup of Mathematical Documents via User Interaction [0.0]
本稿では,既存の s マクロ定義から文法を自動生成し,それらを解析することで,式の意味的マークアップにアプローチする。
また、解析結果を曖昧にするためのGUIベースのツールも提示し、未入力の$lambda$-termsを解析するための文法を用いてその可能性を示す。
論文 参考訳(メタデータ) (2024-08-05T12:36:40Z) - Reproducible Science with LaTeX [4.09920839425892]
本稿では,文書から外部ソースコードを実行する手順を提案する。
結果のPortable Document Format (pdf)ファイルに自動的に計算出力が含まれている。
論文 参考訳(メタデータ) (2020-10-04T04:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。