論文の概要: BERT is not The Count: Learning to Match Mathematical Statements with
Proofs
- arxiv url: http://arxiv.org/abs/2302.09350v1
- Date: Sat, 18 Feb 2023 14:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 19:04:58.591491
- Title: BERT is not The Count: Learning to Match Mathematical Statements with
Proofs
- Title(参考訳): BERTは数ではない - 数学的ステートメントと証明を一致させる学習
- Authors: Weixian Waylon Li, Yftah Ziser, Maximin Coavoux and Shay B. Cohen
- Abstract要約: この課題は、数学的情報検索に関する現在の研究や、より一般的には、数学的記事分析に当てはまる。
現代数学研究論文から抽出した180k以上の文対からなるデータセットについて述べる。
本稿では,文と証明を効果的にマッチングする双線形類似モデルと2つの復号法を提案する。
- 参考スコア(独自算出の注目度): 34.61792250254876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a task consisting in matching a proof to a given mathematical
statement. The task fits well within current research on Mathematical
Information Retrieval and, more generally, mathematical article analysis
(Mathematical Sciences, 2014). We present a dataset for the task (the MATcH
dataset) consisting of over 180k statement-proof pairs extracted from modern
mathematical research articles. We find this dataset highly representative of
our task, as it consists of relatively new findings useful to mathematicians.
We propose a bilinear similarity model and two decoding methods to match
statements to proofs effectively. While the first decoding method matches a
proof to a statement without being aware of other statements or proofs, the
second method treats the task as a global matching problem. Through a symbol
replacement procedure, we analyze the "insights" that pre-trained language
models have in such mathematical article analysis and show that while these
models perform well on this task with the best performing mean reciprocal rank
of 73.7, they follow a relatively shallow symbolic analysis and matching to
achieve that performance.
- Abstract(参考訳): 与えられた数学的文に証明を一致させるタスクを導入する。
このタスクは、数学情報検索に関する現在の研究や、より一般的には数学的論文分析(Mathematical Sciences, 2014)に適合する。
現代数学研究論文から抽出した180k以上の文対からなるタスク用データセット(MATcHデータセット)を提案する。
このデータセットは、数学者にとって比較的新しい発見から成り立っているので、我々のタスクを非常に代表しています。
本稿では,文と証明を効果的にマッチングする双線形類似モデルと2つの復号法を提案する。
第1の復号法は、他の文や証明を知らずに証明とステートメントを一致させるが、第2の方法は、タスクをグローバルなマッチング問題として扱う。
記号置換手順を通じて,事前学習された言語モデルが持つ「洞察」を数学的論文分析で分析し,これらのモデルが最良な平均相互ランク73.7のタスクでうまく機能するのに対し,比較的浅い記号解析とマッチングによってその性能を達成することを示す。
関連論文リスト
- MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。
我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。
次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文 参考訳(メタデータ) (2025-02-17T11:22:24Z) - E-Gen: Leveraging E-Graphs to Improve Continuous Representations of Symbolic Expressions [0.33748750222488655]
本稿では,新しい電子グラフ生成手法を用いて,より大規模な合成データセットによる事前アルゴリズムの拡張を提案する。
この新しい数学的データセット生成スキームであるE-Genは、サイズや演算子の種類に制限のある以前のデータセット生成スキームを改善する。
我々は,これらの手法によって生成された埋め込みを,分散処理とアウト・オブ・ディストリビューション言語処理の両方における先行作業に対して評価する。
論文 参考訳(メタデータ) (2025-01-24T22:39:08Z) - Data for Mathematical Copilots: Better Ways of Presenting Proofs for Machine Learning [85.635988711588]
我々は,大規模言語モデルの能力向上には,数学的データセットの設計におけるパラダイムシフトが必要であると論じる。
1949年にG. P'olyaが導入した「動機付き証明」の概念は、より良い証明学習信号を提供するデータセットの青写真として機能する。
数学データセットに特化して設計されたアンケートでは、クリエーターにデータセットを含めるよう促します。
論文 参考訳(メタデータ) (2024-12-19T18:55:17Z) - Logic Contrastive Reasoning with Lightweight Large Language Model for Math Word Problems [0.0]
本研究では,数理推論タスクにおける軽量大言語モデル(LLM)の性能向上に焦点をあてる。
本稿では,数理論理の類似性を計測し,自動スクリーニング機構を設計する手法を提案する。
肯定的および否定的な例示プロンプトを慎重に作成することにより、音響推論ロジックの導入に向けてモデルを導出する。
論文 参考訳(メタデータ) (2024-08-29T08:26:42Z) - LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback [71.95402654982095]
本研究では,自然言語フィードバック型検証器Math-Minosを提案する。
実験の結果,少量の自然言語フィードバックが検証器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-20T06:42:27Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - Semantic Representations of Mathematical Expressions in a Continuous
Vector Space [0.0]
この研究は連続ベクトル空間における数学的表現を表現するためのアプローチを記述する。
我々は、視覚的に異なるが数学的に等価な表現に基づいて訓練されたシーケンス・ツー・シーケンス・アーキテクチャのエンコーダを用いて、ベクトル表現を生成する。
論文 参考訳(メタデータ) (2022-10-08T22:33:39Z) - Syntax-Aware Network for Handwritten Mathematical Expression Recognition [53.130826547287626]
手書き数式認識(HMER)は、多くの潜在的な応用が可能な課題である。
HMERの最近の手法はエンコーダ・デコーダアーキテクチャで優れた性能を実現している。
本稿では,構文情報をエンコーダ・デコーダネットワークに組み込んだHMERの簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-03T09:57:19Z) - Learning to Match Mathematical Statements with Proofs [37.38969121408295]
このタスクは、研究レベルの数学的テキストの処理を改善するために設計されている。
我々は180k以上の文対からなるタスク用のデータセットをリリースする。
課題をグローバルに検討し,重み付き二部マッチングアルゴリズムを用いることで,課題に対処できることが示唆された。
論文 参考訳(メタデータ) (2021-02-03T15:38:54Z) - A Mathematical Exploration of Why Language Models Help Solve Downstream
Tasks [35.046596668631615]
単語予測のために大きなテキストコーパスを用いて事前訓練された自動回帰言語モデルは、多くの下流タスクの解決に成功している。
本稿では,テキスト分類の下流課題に対する,この現象の数学的研究を開始する。
論文 参考訳(メタデータ) (2020-10-07T20:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。