論文の概要: Discovery and Recognition of Formula Concepts using Machine Learning
- arxiv url: http://arxiv.org/abs/2303.01994v1
- Date: Fri, 3 Mar 2023 15:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 14:40:36.329298
- Title: Discovery and Recognition of Formula Concepts using Machine Learning
- Title(参考訳): 機械学習を用いた公式概念の発見と認識
- Authors: Philipp Scharpf and Moritz Schubotz and Howard S. Cohl and Corinna
Breitinger and Bela Gipp
- Abstract要約: 科学的文書の引用に基づく情報検索 (IR) 手法は、IRの応用に有効であることが証明されている。
科学、技術、工学、数学において、研究者はしばしば式記法を通して数学の概念を用いて事前の知識を参照する。
フォーミュラ概念探索 (FCD) とフォーミュラ概念認識 (FCR) の2つのサブタスクを用いて, 数学的公式を引用し, フォーミュラ概念検索タスクを定義する方法を提案する。
- 参考スコア(独自算出の注目度): 4.686326456820535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Citation-based Information Retrieval (IR) methods for scientific documents
have proven effective for IR applications, such as Plagiarism Detection or
Literature Recommender Systems in academic disciplines that use many
references. In science, technology, engineering, and mathematics, researchers
often employ mathematical concepts through formula notation to refer to prior
knowledge. Our long-term goal is to generalize citation-based IR methods and
apply this generalized method to both classical references and mathematical
concepts. In this paper, we suggest how mathematical formulas could be cited
and define a Formula Concept Retrieval task with two subtasks: Formula Concept
Discovery (FCD) and Formula Concept Recognition (FCR). While FCD aims at the
definition and exploration of a 'Formula Concept' that names bundled equivalent
representations of a formula, FCR is designed to match a given formula to a
prior assigned unique mathematical concept identifier. We present machine
learning-based approaches to address the FCD and FCR tasks. We then evaluate
these approaches on a standardized test collection (NTCIR arXiv dataset). Our
FCD approach yields a precision of 68% for retrieving equivalent
representations of frequent formulas and a recall of 72% for extracting the
formula name from the surrounding text. FCD and FCR enable the citation of
formulas within mathematical documents and facilitate semantic search and
question answering as well as document similarity assessments for plagiarism
detection or recommender systems.
- Abstract(参考訳): 科学文献の引用に基づく情報検索法(IR法)は、多くの文献を参照する学術分野において、プラジャリズム検出や文学推薦システムなどのIR応用に有効であることが証明されている。
科学、技術、工学、数学において、研究者はしばしば式記法を通して数学の概念を用いて事前の知識を参照する。
我々の長期目標は、引用に基づくIR法を一般化し、古典的参照と数学的概念の両方に適用することである。
本稿では,式概念発見(fcd)と式概念認識(fcr)の2つのサブタスクを用いた数式概念検索タスクを,数学式がどのように引用し定義するかを提案する。
FCDは、式にバンドルされた等価表現を名付ける「形式的概念」の定義と探索を目的としているが、FCRは、与えられた公式を割り当てられた一意の数学的概念識別子と一致させるように設計されている。
本稿では、FCDおよびFCRタスクに対処するための機械学習に基づくアプローチを提案する。
次に、これらのアプローチを標準化されたテストコレクション(NTCIR arXiv データセット)上で評価する。
FCD法では, 頻繁な公式の等価表現を抽出するための精度が68%, 周辺テキストから式名を抽出するためのリコールが72%であった。
fcd と fcr は数学的文書内の公式の引用を可能にし、意味検索や質問への回答を容易にし、またプラジアリズム検出やレコメンデーションシステムのための文書類似性評価も行う。
関連論文リスト
- MLFMF: Data Sets for Machine Learning for Mathematical Formalization [0.18416014644193068]
MLFMF(MLFMF)は、証明アシスタントを用いた数学の形式化を支援するために使用されるベンチマークシステムのためのデータセットの集合である。
各データセットは、AgdaやLeanの証明アシスタントで書かれた形式化された数学のライブラリから導かれる。
合計25万ドル以上のエントリーがあり、これは現在、機械学習可能な形式における公式な数学的知識のコレクションとして最大である。
論文 参考訳(メタデータ) (2023-10-24T17:00:00Z) - Parmesan: mathematical concept extraction for education [0.5520082338220947]
本研究では,カテゴリー論の分野に焦点をあて,文脈における数学的概念の探索と定義を行うプロトタイプシステムの開発を行う。
このシステムは、概念抽出、関係抽出、定義抽出、エンティティリンクを含む自然言語処理コンポーネントに依存している。
また,ジャーナル記事やウィキページをベースとしたプロトタイプシステムを利用した2つのクリーンな数学的コーパスも提供する。
論文 参考訳(メタデータ) (2023-07-13T11:55:03Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Differentiable Inference of Temporal Logic Formulas [1.370633147306388]
信号時相論理式を学習するための最初のリカレントニューラルネットワークアーキテクチャを実演する。
本稿では,式推論法の最初の体系的比較について述べる。
論文 参考訳(メタデータ) (2022-08-10T16:52:23Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - RetroGAN: A Cyclic Post-Specialization System for Improving
Out-of-Knowledge and Rare Word Representations [9.260444813514948]
RetroGANは、概念とその再適合した概念を1対1でマッピングすることを学ぶ。
元々の知識ベースにない概念を扱うためのマッピングが適用される。
3つの単語類似性ベンチマークと下流文単純化タスクで本システムをテストする。
論文 参考訳(メタデータ) (2021-08-30T00:34:23Z) - A Meta-embedding-based Ensemble Approach for ICD Coding Prediction [64.42386426730695]
国際疾病分類 (icd) は、世界中で臨床コーディングに使われているデファクトコードである。
これらのコードにより、医療提供者は償還を請求し、診断情報の効率的な保管と検索を容易にします。
提案手法は,日常的な医学データと科学論文の外部知識を用いて,効果的に単語ベクトルを訓練することにより,神経モデルの性能を高める。
論文 参考訳(メタデータ) (2021-02-26T17:49:58Z) - Formalising Concepts as Grounded Abstractions [68.24080871981869]
このレポートは、表現学習が生データから概念を誘導する方法を示しています。
このレポートの主な技術的目標は、表現学習のテクニックが概念空間の格子理論的定式化とどのように結婚できるかを示すことである。
論文 参考訳(メタデータ) (2021-01-13T15:22:01Z) - Information Theoretic Meta Learning with Gaussian Processes [74.54485310507336]
情報理論の概念,すなわち相互情報と情報のボトルネックを用いてメタ学習を定式化する。
相互情報に対する変分近似を用いることで、メタ学習のための汎用的かつトラクタブルな枠組みを導出する。
論文 参考訳(メタデータ) (2020-09-07T16:47:30Z) - Automatic Compilation of Resources for Academic Writing and Evaluating
with Informal Word Identification and Paraphrasing System [24.42822218256954]
学術書記のためのリソースを自動構築する最初の手法を提案する。
目的は、テキストを自動的に編集し、学術的な文章のスタイルに忠実な文章作成支援システムを構築することである。
論文 参考訳(メタデータ) (2020-03-05T22:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。