論文の概要: Discovery and Recognition of Formula Concepts using Machine Learning
- arxiv url: http://arxiv.org/abs/2303.01994v1
- Date: Fri, 3 Mar 2023 15:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 14:40:36.329298
- Title: Discovery and Recognition of Formula Concepts using Machine Learning
- Title(参考訳): 機械学習を用いた公式概念の発見と認識
- Authors: Philipp Scharpf and Moritz Schubotz and Howard S. Cohl and Corinna
Breitinger and Bela Gipp
- Abstract要約: 科学的文書の引用に基づく情報検索 (IR) 手法は、IRの応用に有効であることが証明されている。
科学、技術、工学、数学において、研究者はしばしば式記法を通して数学の概念を用いて事前の知識を参照する。
フォーミュラ概念探索 (FCD) とフォーミュラ概念認識 (FCR) の2つのサブタスクを用いて, 数学的公式を引用し, フォーミュラ概念検索タスクを定義する方法を提案する。
- 参考スコア(独自算出の注目度): 4.686326456820535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Citation-based Information Retrieval (IR) methods for scientific documents
have proven effective for IR applications, such as Plagiarism Detection or
Literature Recommender Systems in academic disciplines that use many
references. In science, technology, engineering, and mathematics, researchers
often employ mathematical concepts through formula notation to refer to prior
knowledge. Our long-term goal is to generalize citation-based IR methods and
apply this generalized method to both classical references and mathematical
concepts. In this paper, we suggest how mathematical formulas could be cited
and define a Formula Concept Retrieval task with two subtasks: Formula Concept
Discovery (FCD) and Formula Concept Recognition (FCR). While FCD aims at the
definition and exploration of a 'Formula Concept' that names bundled equivalent
representations of a formula, FCR is designed to match a given formula to a
prior assigned unique mathematical concept identifier. We present machine
learning-based approaches to address the FCD and FCR tasks. We then evaluate
these approaches on a standardized test collection (NTCIR arXiv dataset). Our
FCD approach yields a precision of 68% for retrieving equivalent
representations of frequent formulas and a recall of 72% for extracting the
formula name from the surrounding text. FCD and FCR enable the citation of
formulas within mathematical documents and facilitate semantic search and
question answering as well as document similarity assessments for plagiarism
detection or recommender systems.
- Abstract(参考訳): 科学文献の引用に基づく情報検索法(IR法)は、多くの文献を参照する学術分野において、プラジャリズム検出や文学推薦システムなどのIR応用に有効であることが証明されている。
科学、技術、工学、数学において、研究者はしばしば式記法を通して数学の概念を用いて事前の知識を参照する。
我々の長期目標は、引用に基づくIR法を一般化し、古典的参照と数学的概念の両方に適用することである。
本稿では,式概念発見(fcd)と式概念認識(fcr)の2つのサブタスクを用いた数式概念検索タスクを,数学式がどのように引用し定義するかを提案する。
FCDは、式にバンドルされた等価表現を名付ける「形式的概念」の定義と探索を目的としているが、FCRは、与えられた公式を割り当てられた一意の数学的概念識別子と一致させるように設計されている。
本稿では、FCDおよびFCRタスクに対処するための機械学習に基づくアプローチを提案する。
次に、これらのアプローチを標準化されたテストコレクション(NTCIR arXiv データセット)上で評価する。
FCD法では, 頻繁な公式の等価表現を抽出するための精度が68%, 周辺テキストから式名を抽出するためのリコールが72%であった。
fcd と fcr は数学的文書内の公式の引用を可能にし、意味検索や質問への回答を容易にし、またプラジアリズム検出やレコメンデーションシステムのための文書類似性評価も行う。
関連論文リスト
- Taxonomy-guided Semantic Indexing for Academic Paper Search [51.07749719327668]
TaxoIndexは学術論文検索のためのセマンティックインデックスフレームワークである。
学術分類学によって導かれる意味指標として、論文から重要な概念を整理する。
既存の高密度レトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-10-25T00:00:17Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - Conceptual Engineering Using Large Language Models [0.0]
ウィキデータナレッジグラフから得られたデータを用いて、2つの概念工学プロジェクトに関する規定的定義を評価する。
その結果,本手法を用いて構築した分類手順は,優れた分類性能を示すことがわかった。
我々は、この研究に対して、概念工学の理論と実践の3つの側面に異議を申し立てる。
論文 参考訳(メタデータ) (2023-12-01T01:58:16Z) - MLFMF: Data Sets for Machine Learning for Mathematical Formalization [0.18416014644193068]
MLFMF(MLFMF)は、証明アシスタントを用いた数学の形式化を支援するために使用されるベンチマークシステムのためのデータセットの集合である。
各データセットは、AgdaやLeanの証明アシスタントで書かれた形式化された数学のライブラリから導かれる。
合計25万ドル以上のエントリーがあり、これは現在、機械学習可能な形式における公式な数学的知識のコレクションとして最大である。
論文 参考訳(メタデータ) (2023-10-24T17:00:00Z) - Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。
提案するRACoは,他の知識強化手法よりも優れる。
論文 参考訳(メタデータ) (2022-10-23T23:49:08Z) - Differentiable Inference of Temporal Logic Formulas [1.370633147306388]
信号時相論理式を学習するための最初のリカレントニューラルネットワークアーキテクチャを実演する。
本稿では,式推論法の最初の体系的比較について述べる。
論文 参考訳(メタデータ) (2022-08-10T16:52:23Z) - Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。
本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。
このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-01T05:15:42Z) - RetroGAN: A Cyclic Post-Specialization System for Improving
Out-of-Knowledge and Rare Word Representations [9.260444813514948]
RetroGANは、概念とその再適合した概念を1対1でマッピングすることを学ぶ。
元々の知識ベースにない概念を扱うためのマッピングが適用される。
3つの単語類似性ベンチマークと下流文単純化タスクで本システムをテストする。
論文 参考訳(メタデータ) (2021-08-30T00:34:23Z) - Formalising Concepts as Grounded Abstractions [68.24080871981869]
このレポートは、表現学習が生データから概念を誘導する方法を示しています。
このレポートの主な技術的目標は、表現学習のテクニックが概念空間の格子理論的定式化とどのように結婚できるかを示すことである。
論文 参考訳(メタデータ) (2021-01-13T15:22:01Z) - Automatic Compilation of Resources for Academic Writing and Evaluating
with Informal Word Identification and Paraphrasing System [24.42822218256954]
学術書記のためのリソースを自動構築する最初の手法を提案する。
目的は、テキストを自動的に編集し、学術的な文章のスタイルに忠実な文章作成支援システムを構築することである。
論文 参考訳(メタデータ) (2020-03-05T22:55:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。