論文の概要: Towards Math-Aware Automated Classification and Similarity Search of
Scientific Publications: Methods of Mathematical Content Representations
- arxiv url: http://arxiv.org/abs/2110.04040v1
- Date: Fri, 8 Oct 2021 11:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 13:55:58.191243
- Title: Towards Math-Aware Automated Classification and Similarity Search of
Scientific Publications: Methods of Mathematical Content Representations
- Title(参考訳): 科学出版物の自動分類・類似検索に向けて:数学的内容表現の方法
- Authors: Michal R\r{u}\v{z}i\v{c}ka, Petr Sojka
- Abstract要約: STEM文書における自動分類と類似性検索に適した数学的内容表現について検討する。
これらの手法は、arXiv.org論文のサブセットにおいて、参照分類として数学対象分類(MSC)を用いて評価される。
- 参考スコア(独自算出の注目度): 0.456877715768796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate mathematical content representations suitable
for the automated classification of and the similarity search in STEM documents
using standard machine learning algorithms: the Latent Dirichlet Allocation
(LDA) and the Latent Semantic Indexing (LSI). The methods are evaluated on a
subset of arXiv.org papers with the Mathematics Subject Classification (MSC) as
a reference classification and using the standard precision/recall/F1-measure
metrics. The results give insight into how different math representations may
influence the performance of the classification and similarity search tasks in
STEM repositories. Non-surprisingly, machine learning methods are able to grab
distributional semantics from textual tokens. A proper selection of weighted
tokens representing math may improve the quality of the results slightly. A
structured math representation that imitates successful text-processing
techniques with math is shown to yield better results than flat TeX tokens.
- Abstract(参考訳): 本稿では,stem文書の自動分類と類似性検索に適した数学的コンテンツ表現について,標準機械学習アルゴリズムであるlatent dirichlet allocation (lda) と latent semantic indexing (lsi) を用いて検討する。
数学主題分類(msc)を基準分類とし、標準精度/recall/f1測定指標を用いてarxiv.org論文のサブセットを評価する。
その結果,STEMレポジトリの分類・類似性検索タスクの性能に,異なる数学表現がどのような影響を与えるかが示唆された。
当然のことながら、機械学習の手法はテキストトークンから分布意味をつかむことができる。
数学を表す重み付きトークンの適切な選択は、結果の品質をわずかに改善する可能性がある。
テキスト処理技術を数学で模倣した構造化数学表現は、フラットなtexトークンよりも優れた結果をもたらすことが示されている。
関連論文リスト
- STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing [2.2315518704035595]
STEM-PoM(STEM-PoM)は,大規模言語モデルの数学記号に対する推論能力を評価するためのベンチマークデータセットである。
データセットには変数、定数、演算子、および単位記述子の主属性に分類される2K以上の数学記号が含まれている。
実験により,現状のLLMはテキスト内学習では平均20-60%,微調整では50-60%の精度が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-01T06:25:06Z) - Semantic Graph Representation Learning for Handwritten Mathematical
Expression Recognition [57.60390958736775]
セマンティック・インタラクション・ラーニング(SIL)の簡易かつ効率的な手法を提案する。
まず,統計的シンボル共起確率に基づく意味グラフを構築する。
次に、視覚的および分類的特徴を意味空間に投影する意味認識モジュール(SAM)を設計する。
本手法は, CROHMEとHME100Kの両方のデータセットにおいて, 先行技術よりも優れた認識性能を実現する。
論文 参考訳(メタデータ) (2023-08-21T06:23:41Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - Self-Supervised Pretraining of Graph Neural Network for the Retrieval of
Related Mathematical Expressions in Scientific Articles [8.942112181408156]
本稿では,機械学習に基づく数学的表現の検索手法を提案する。
埋め込み学習と自己教師型学習を組み合わせた教師なし表現学習タスクを設計する。
arXiv.orgで発行された90,000以上の出版物から、9900万以上の数学的表現を持つ巨大なデータセットを収集します。
論文 参考訳(メタデータ) (2022-08-22T12:11:30Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - AutoMSC: Automatic Assignment of Mathematics Subject Classification
Labels [4.001125251113153]
本研究では,数学科目分類方式を用いて,粗粒度一次分類を自動的に割り当てる可能性について検討する。
提案手法は, zbMATH と MR の一致に非常に近い 77% 以上の (F_1) スコアを実現する。
論文 参考訳(メタデータ) (2020-05-25T13:26:45Z) - Classification and Clustering of arXiv Documents, Sections, and
Abstracts, Comparing Encodings of Natural and Mathematical Language [8.522576207528017]
本稿では、自然言語と数学的言語のエンコーディングの選択と組み合わせが、文書の分類とクラスタリングに数学的内容がどう影響するかを示す。
私たちのエンコーディングは、分類精度が最大で82.8%、クラスタ純度が最大で69.4%に達する。
文書の分類において,コンピュータが人間の専門家より優れていることを示す。
論文 参考訳(メタデータ) (2020-05-22T06:16:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。