論文の概要: ArGoT: A Glossary of Terms extracted from the arXiv
- arxiv url: http://arxiv.org/abs/2109.02801v1
- Date: Tue, 7 Sep 2021 01:33:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-09 00:26:31.184165
- Title: ArGoT: A Glossary of Terms extracted from the arXiv
- Title(参考訳): ArGoT:arXivから抽出された用語の用語集
- Authors: Luis Berlioz (University of Pittsburgh)
- Abstract要約: 本稿では、arXivのウェブサイトにホストされている記事から抽出された数学的用語のデータセットであるArGoTを紹介する。
すべての用語をarXivデータにマイニングし、数学的用語の包括的な語彙をコンパイルします。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ArGoT, a data set of mathematical terms extracted from the
articles hosted on the arXiv website. A term is any mathematical concept
defined in an article. Using labels in the article's source code and examples
from other popular math websites, we mine all the terms in the arXiv data and
compile a comprehensive vocabulary of mathematical terms. Each term can be then
organized in a dependency graph by using the term's definitions and the arXiv's
metadata. Using both hyperbolic and standard word embeddings, we demonstrate
how this structure is reflected in the text's vector representation and how
they capture relations of entailment in mathematical concepts. This data set is
part of an ongoing effort to align natural mathematical text with existing
Interactive Theorem Prover Libraries (ITPs) of formally verified statements.
- Abstract(参考訳): arxivのウェブサイトでホストされている論文から抽出された数学用語のデータセットであるargotを紹介する。
用語は、ある論文で定義された数学的概念である。
論文のソースコードと他の人気のある数学ウェブサイトの例を用いて、arXivデータに全ての用語をマイニングし、数学的用語の包括的な語彙をコンパイルする。
各用語は、その用語の定義とarXivのメタデータを使用して、依存グラフにまとめることができる。
双曲的単語埋め込みと標準単語埋め込みの両方を用いて、この構造がテキストのベクトル表現にどのように反映され、数学的概念における関係を捉えるかを示す。
このデータセットは、自然数理テキストを、公式に証明された文の既存の対話的定理 Prover Libraries (ITP) と整合させる取り組みの一環である。
関連論文リスト
- Automated conjecturing in mathematics with \emph{TxGraffiti} [0.0]
emphTxGraffitiは、予想を生成するプロセスを自動化するために開発されたデータ駆動型コンピュータプログラムである。
本稿では,emphTxGraffitiプログラムのルーツを含む,emphTxGraffitiの設計と基本原理について述べる。
論文 参考訳(メタデータ) (2024-09-28T15:06:31Z) - Tempered Calculus for ML: Application to Hyperbolic Model Embedding [70.61101116794549]
MLで使用されるほとんどの数学的歪みは、本質的に自然界において積分的である。
本稿では,これらの歪みを改善するための基礎的理論とツールを公表し,機械学習の要件に対処する。
我々は、最近MLで注目を集めた問題、すなわち、ハイパーボリック埋め込みを「チープ」で正確なエンコーディングで適用する方法を示す。
論文 参考訳(メタデータ) (2024-02-06T17:21:06Z) - MathGloss: Building mathematical glossaries from text [0.620048328543366]
MathGlossは数学の学部概念のデータベースである。
最新の自然言語処理(NLP)ツールとWeb上で既に利用可能なリソースを使用している。
論文 参考訳(メタデータ) (2023-11-21T14:49:00Z) - A New Approach Towards Autoformalization [7.275550401145199]
オートフォーマル化(Autoformalization)は、自然言語をプログラムで検証可能な形式言語に変換するタスクである。
研究論文は大量の背景と文脈を必要とする。
本稿では,研究レベルの数学の自己形式化に取り組み,タスクをより容易に,より親しみやすいサブタスクに分割する手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T00:50:24Z) - arXiv4TGC: Large-Scale Datasets for Temporal Graph Clustering [52.63652741011945]
我々は、時間グラフクラスタリングのための新しい学術データセットであるarXiv4TGCを構築した。
特に、最大のデータセットであるarXivLargeには、13万のラベル付き利用可能なノードと1000万の時間エッジが含まれている。
arXiv4TGCのクラスタリング性能は、異なるモデルを評価する上でより明白である。
論文 参考訳(メタデータ) (2023-06-08T06:37:04Z) - OntoMath${}^{\mathbf{PRO}}$ 2.0 Ontology: Updates of the Formal Model [68.8204255655161]
主な関心は、Open Linked Dataクラウドにおける数学的ステートメントを表現するための形式モデルの開発である。
提案モデルは、自然言語の数学的テキストから数学的事実を抽出し、これらの事実をLinked Open Dataとして表現するアプリケーションを対象としている。
このモデルは OntoMath$mathrmPRO$ ontology of professional mathematics の新バージョンの開発に使用される。
論文 参考訳(メタデータ) (2023-03-17T20:29:17Z) - Tree-Based Representation and Generation of Natural and Mathematical
Language [77.34726150561087]
科学コミュニケーションと教育シナリオにおける数学的言語は重要であるが、比較的研究されている。
数学言語に関する最近の研究は、スタンドアローンな数学的表現や、事前訓練された自然言語モデルにおける数学的推論に焦点をあてている。
テキストと数学を共同で表現・生成するために,既存の言語モデルに対する一連の修正を提案する。
論文 参考訳(メタデータ) (2023-02-15T22:38:34Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Semantic Representations of Mathematical Expressions in a Continuous
Vector Space [0.0]
この研究は連続ベクトル空間における数学的表現を表現するためのアプローチを記述する。
我々は、視覚的に異なるが数学的に等価な表現に基づいて訓練されたシーケンス・ツー・シーケンス・アーキテクチャのエンコーダを用いて、ベクトル表現を生成する。
論文 参考訳(メタデータ) (2022-10-08T22:33:39Z) - Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles [8.942112181408156]
本稿では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集します。
論文 参考訳(メタデータ) (2022-08-22T12:11:30Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。