Fugu-MT 論文翻訳(概要): Discovery and Recognition of Formula Concepts using Machine Learning

論文の概要: Discovery and Recognition of Formula Concepts using Machine Learning

arxiv url: http://arxiv.org/abs/2303.01994v1
Date: Fri, 3 Mar 2023 15:06:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-06 14:40:36.329298
Title: Discovery and Recognition of Formula Concepts using Machine Learning
Title（参考訳）: 機械学習を用いた公式概念の発見と認識
Authors: Philipp Scharpf and Moritz Schubotz and Howard S. Cohl and Corinna Breitinger and Bela Gipp
Abstract要約: 科学的文書の引用に基づく情報検索 (IR) 手法は、IRの応用に有効であることが証明されている。科学、技術、工学、数学において、研究者はしばしば式記法を通して数学の概念を用いて事前の知識を参照する。フォーミュラ概念探索 (FCD) とフォーミュラ概念認識 (FCR) の2つのサブタスクを用いて, 数学的公式を引用し, フォーミュラ概念検索タスクを定義する方法を提案する。
参考スコア（独自算出の注目度）: 4.686326456820535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Citation-based Information Retrieval (IR) methods for scientific documents have proven effective for IR applications, such as Plagiarism Detection or Literature Recommender Systems in academic disciplines that use many references. In science, technology, engineering, and mathematics, researchers often employ mathematical concepts through formula notation to refer to prior knowledge. Our long-term goal is to generalize citation-based IR methods and apply this generalized method to both classical references and mathematical concepts. In this paper, we suggest how mathematical formulas could be cited and define a Formula Concept Retrieval task with two subtasks: Formula Concept Discovery (FCD) and Formula Concept Recognition (FCR). While FCD aims at the definition and exploration of a 'Formula Concept' that names bundled equivalent representations of a formula, FCR is designed to match a given formula to a prior assigned unique mathematical concept identifier. We present machine learning-based approaches to address the FCD and FCR tasks. We then evaluate these approaches on a standardized test collection (NTCIR arXiv dataset). Our FCD approach yields a precision of 68% for retrieving equivalent representations of frequent formulas and a recall of 72% for extracting the formula name from the surrounding text. FCD and FCR enable the citation of formulas within mathematical documents and facilitate semantic search and question answering as well as document similarity assessments for plagiarism detection or recommender systems.
Abstract（参考訳）: 科学文献の引用に基づく情報検索法(IR法)は、多くの文献を参照する学術分野において、プラジャリズム検出や文学推薦システムなどのIR応用に有効であることが証明されている。科学、技術、工学、数学において、研究者はしばしば式記法を通して数学の概念を用いて事前の知識を参照する。我々の長期目標は、引用に基づくIR法を一般化し、古典的参照と数学的概念の両方に適用することである。本稿では,式概念発見(fcd)と式概念認識(fcr)の2つのサブタスクを用いた数式概念検索タスクを,数学式がどのように引用し定義するかを提案する。 FCDは、式にバンドルされた等価表現を名付ける「形式的概念」の定義と探索を目的としているが、FCRは、与えられた公式を割り当てられた一意の数学的概念識別子と一致させるように設計されている。本稿では、FCDおよびFCRタスクに対処するための機械学習に基づくアプローチを提案する。次に、これらのアプローチを標準化されたテストコレクション(NTCIR arXiv データセット)上で評価する。 FCD法では, 頻繁な公式の等価表現を抽出するための精度が68%, 周辺テキストから式名を抽出するためのリコールが72%であった。 fcd と fcr は数学的文書内の公式の引用を可能にし、意味検索や質問への回答を容易にし、またプラジアリズム検出やレコメンデーションシステムのための文書類似性評価も行う。

関連論文リスト

STELLA: Self-Reflective Terminology-Aware Framework for Building an Aerospace Information Retrieval Benchmark [0.0]
STELLAベンチマークはNASA Technical Reports Server (NTRS) の文書から構築された航空宇宙固有のIR評価セットである。フレームワークは2種類のクエリを生成する: Concordant Query (TCQ)。 STELLAベンチマークにおける7つの埋め込みモデルの評価は、大きなデコーダベースの埋め込みモデルが最も強力なセマンティック理解を示すことを示している。
論文参考訳（メタデータ） (2026-01-07T01:23:44Z)
CNC-TP: Classifier Nominal Concept Based on Top-Pertinent Attributes [0.0]
データベースにおける知識発見は、コンピュータアプリケーションの様々な領域で毎日生成される膨大な量のデータを活用することを目的としている。その目的は、構造化プロセスを通じてデータセットから隠れた意味のある知識を抽出することである。中心となるデータマイニング技術には、分類とクラスタリングがある。
論文参考訳（メタデータ） (2026-01-05T10:32:10Z)
DRIFT: Decompose, Retrieve, Illustrate, then Formalize Theorems [14.568293842955065]
DRIFTは、非公式な数学的ステートメントをより小さく、より扱いやすい'サブコンポーネント'に分解するフレームワークである。これは、モデルが形式化タスクにおいてより効果的に前提を使用するのを助けるために、イラストラティブな定理を回収する。我々は,様々なベンチマーク(ProofNet,ConNF,MiniF2F-test)でDRIFTを評価し,前提条件の検索を継続的に改善することを発見した。
論文参考訳（メタデータ） (2025-10-12T21:42:04Z)
Automated Formalization via Conceptual Retrieval-Augmented LLMs [19.328918823576153]
CRAMFは概念駆動のRetrieval-Augmented Mathematical Formalizationフレームワークである。概念定義知識ベースをMathlib4から自動構築するフレームワークを提案する。 miniF2F, ProofNet, そして新たに提案したAdvancedMathベンチマークでは, CRAMF を LLM ベースのオートフォーマライザにシームレスに統合できることが示されている。
論文参考訳（メタデータ） (2025-08-09T10:54:25Z)
MA-COIR: Leveraging Semantic Search Index and Generative Models for Ontology-Driven Biomedical Concept Recognition [8.635416307171035]
我々は,概念認識を索引付け認識タスクとして再構成するフレームワークであるMA-COIRを紹介する。セマンティック検索インデックス(ssID)を概念に割り当てることで、MA-COIRはオントロジーエントリの曖昧さを解消し、認識効率を高める。本研究は,MA-COIRが言及レベルのアノテーションを必要とせず,明示的概念と暗黙的概念の両方を認識する上での有効性を強調した。
論文参考訳（メタデータ） (2025-05-19T11:00:43Z)
Can we repurpose multiple-choice question-answering models to rerank retrieved documents? [0.0]
R* は概念実証モデルであり、文書の再ランク付けのための多重選択質問回答(MCQA)モデルを調和させる。実験的な検証により、R*は検索精度を向上し、フィールドの進歩に寄与することが証明される。
論文参考訳（メタデータ） (2025-03-06T17:53:24Z)
Taxonomy-guided Semantic Indexing for Academic Paper Search [51.07749719327668]
TaxoIndexは学術論文検索のためのセマンティックインデックスフレームワークである。学術分類学によって導かれる意味指標として、論文から重要な概念を整理する。既存の高密度レトリバーを強化するために柔軟に使用できる。
論文参考訳（メタデータ） (2024-10-25T00:00:17Z)
Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文参考訳（メタデータ） (2024-07-19T17:50:11Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
Conceptual Engineering Using Large Language Models [0.0]
ウィキデータナレッジグラフから得られたデータを用いて、2つの概念工学プロジェクトに関する規定的定義を評価する。その結果,本手法を用いて構築した分類手順は,優れた分類性能を示すことがわかった。我々は、この研究に対して、概念工学の理論と実践の3つの側面に異議を申し立てる。
論文参考訳（メタデータ） (2023-12-01T01:58:16Z)
MLFMF: Data Sets for Machine Learning for Mathematical Formalization [0.18416014644193068]
MLFMF(MLFMF)は、証明アシスタントを用いた数学の形式化を支援するために使用されるベンチマークシステムのためのデータセットの集合である。各データセットは、AgdaやLeanの証明アシスタントで書かれた形式化された数学のライブラリから導かれる。合計25万ドル以上のエントリーがあり、これは現在、機械学習可能な形式における公式な数学的知識のコレクションとして最大である。
論文参考訳（メタデータ） (2023-10-24T17:00:00Z)
Retrieval Augmentation for Commonsense Reasoning: A Unified Approach [64.63071051375289]
検索強化コモンセンス推論(RACo)の統一的枠組みを提案する。提案するRACoは,他の知識強化手法よりも優れる。
論文参考訳（メタデータ） (2022-10-23T23:49:08Z)
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文参考訳（メタデータ） (2022-09-20T02:01:01Z)
Differentiable Inference of Temporal Logic Formulas [1.370633147306388]
信号時相論理式を学習するための最初のリカレントニューラルネットワークアーキテクチャを実演する。本稿では,式推論法の最初の体系的比較について述べる。
論文参考訳（メタデータ） (2022-08-10T16:52:23Z)
Semantic Search for Large Scale Clinical Ontologies [63.71950996116403]
本稿では,大規模臨床語彙検索システムを構築するための深層学習手法を提案する。本稿では,意味学習データに基づくトレーニングデータを生成するTriplet-BERTモデルを提案する。このモデルは,5つの実ベンチマークデータセットを用いて評価され,提案手法は自由テキストから概念,概念まで,概念語彙の検索において高い結果が得られることを示す。
論文参考訳（メタデータ） (2022-01-01T05:15:42Z)
RetroGAN: A Cyclic Post-Specialization System for Improving Out-of-Knowledge and Rare Word Representations [9.260444813514948]
RetroGANは、概念とその再適合した概念を1対1でマッピングすることを学ぶ。元々の知識ベースにない概念を扱うためのマッピングが適用される。 3つの単語類似性ベンチマークと下流文単純化タスクで本システムをテストする。
論文参考訳（メタデータ） (2021-08-30T00:34:23Z)
Formalising Concepts as Grounded Abstractions [68.24080871981869]
このレポートは、表現学習が生データから概念を誘導する方法を示しています。このレポートの主な技術的目標は、表現学習のテクニックが概念空間の格子理論的定式化とどのように結婚できるかを示すことである。
論文参考訳（メタデータ） (2021-01-13T15:22:01Z)
Automatic Compilation of Resources for Academic Writing and Evaluating with Informal Word Identification and Paraphrasing System [24.42822218256954]
学術書記のためのリソースを自動構築する最初の手法を提案する。目的は、テキストを自動的に編集し、学術的な文章のスタイルに忠実な文章作成支援システムを構築することである。
論文参考訳（メタデータ） (2020-03-05T22:55:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。