論文の概要: Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles
- arxiv url: http://arxiv.org/abs/2209.00446v1
- Date: Mon, 22 Aug 2022 12:11:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-04 02:02:50.969956
- Title: Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles
- Title(参考訳): 科学論文における関連する数式検索のためのグラフニューラルネットワークの自己教師付き事前学習
- Authors: Lukas Pfahler, Katharina Morik
- Abstract要約: 本稿では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集します。
- 参考スコア(独自算出の注目度): 8.942112181408156
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Given the increase of publications, search for relevant papers becomes
tedious. In particular, search across disciplines or schools of thinking is not
supported. This is mainly due to the retrieval with keyword queries: technical
terms differ in different sciences or at different times. Relevant articles
might better be identified by their mathematical problem descriptions. Just
looking at the equations in a paper already gives a hint to whether the paper
is relevant. Hence, we propose a new approach for retrieval of mathematical
expressions based on machine learning. We design an unsupervised representation
learning task that combines embedding learning with self-supervised learning.
Using graph convolutional neural networks we embed mathematical expression into
low-dimensional vector spaces that allow efficient nearest neighbor queries. To
train our models, we collect a huge dataset with over 29 million mathematical
expressions from over 900,000 publications published on arXiv.org. The math is
converted into an XML format, which we view as graph data. Our empirical
evaluations involving a new dataset of manually annotated search queries show
the benefits of using embedding models for mathematical retrieval.
This work was originally published at KDD 2020.
- Abstract(参考訳): 出版物が増えれば、関連論文の検索は面倒になる。
特に、専門分野や学派にわたる探索は支持されない。
これは主にキーワードクエリによる検索によるもので、技術的な用語は科学や時代によって異なる。
関連する記事は、それらの数学的問題の記述によって識別される。
紙の方程式を見るだけで、その紙が関係しているかどうかがわかる。
そこで本研究では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
グラフ畳み込みニューラルネットワークを用いて、数式を低次元ベクトル空間に埋め込み、効率的な隣接クエリを可能にする。
モデルをトレーニングするために、arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集しました。
数学はXMLフォーマットに変換され、グラフデータとして見ることができます。
手動アノテーション付き検索クエリの新たなデータセットを用いた経験的評価により,組込みモデルを用いた数学的検索のメリットが示された。
この作品はKDD 2020で発表された。
関連論文リスト
- Automated conjecturing in mathematics with \emph{TxGraffiti} [0.0]
emphTxGraffitiは、予想を生成するプロセスを自動化するために開発されたデータ駆動型コンピュータプログラムである。
本稿では,emphTxGraffitiプログラムのルーツを含む,emphTxGraffitiの設計と基本原理について述べる。
論文 参考訳(メタデータ) (2024-09-28T15:06:31Z) - Discovering symbolic expressions with parallelized tree search [59.92040079807524]
記号回帰は、データから簡潔で解釈可能な数学的表現を発見する能力のおかげで、科学研究において重要な役割を果たす。
既存のアルゴリズムは、複雑性の問題に対処する際の精度と効率の重要なボトルネックに直面してきた。
本稿では,限定データから汎用数学的表現を効率的に抽出する並列木探索(PTS)モデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T10:41:15Z) - Artificial intelligence and machine learning generated conjectures with TxGraffiti [0.0]
TxGraffitiが実装した機械学習とテクニックについて概説する。
また、グラフ理論の予想を探求したい人なら誰でも利用できる新しいオンライン版も発表します。
論文 参考訳(メタデータ) (2024-07-03T01:03:09Z) - OpenWebMath: An Open Dataset of High-Quality Mathematical Web Text [32.15651290548974]
OpenWebMathは、Common Crawlの14.7Bトークンを含む作品にインスパイアされたオープンデータセットである。
OpenWebMath上で1.4Bのパラメータ言語モデルをトレーニングし、データセットの14.7Bトークンでトレーニングされたモデルが、20倍以上の汎用言語データでトレーニングされたモデルのパフォーマンスを上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-10T16:57:28Z) - Conversational Semantic Parsing using Dynamic Context Graphs [68.72121830563906]
汎用知識グラフ(KG)を用いた会話意味解析の課題を,数百万のエンティティと数千のリレーショナルタイプで検討する。
ユーザ発話を実行可能な論理形式にインタラクティブにマッピングできるモデルに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-04T16:04:41Z) - Scientific Paper Extractive Summarization Enhanced by Citation Graphs [50.19266650000948]
我々は、引用グラフを活用して、異なる設定下での科学的論文の抽出要約を改善することに重点を置いている。
予備的な結果は、単純な教師なしフレームワークであっても、引用グラフが有用であることを示している。
そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。
論文 参考訳(メタデータ) (2022-12-08T11:53:12Z) - Towards Math-Aware Automated Classification and Similarity Search of
Scientific Publications: Methods of Mathematical Content Representations [0.456877715768796]
STEM文書における自動分類と類似性検索に適した数学的内容表現について検討する。
これらの手法は、arXiv.org論文のサブセットにおいて、参照分類として数学対象分類(MSC)を用いて評価される。
論文 参考訳(メタデータ) (2021-10-08T11:27:40Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Learning to Match Mathematical Statements with Proofs [37.38969121408295]
このタスクは、研究レベルの数学的テキストの処理を改善するために設計されている。
我々は180k以上の文対からなるタスク用のデータセットをリリースする。
課題をグローバルに検討し,重み付き二部マッチングアルゴリズムを用いることで,課題に対処できることが示唆された。
論文 参考訳(メタデータ) (2021-02-03T15:38:54Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。