論文の概要: Automated Discovery of Mathematical Definitions in Text with Deep Neural
Networks
- arxiv url: http://arxiv.org/abs/2011.04521v1
- Date: Mon, 9 Nov 2020 15:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 01:36:02.042702
- Title: Automated Discovery of Mathematical Definitions in Text with Deep Neural
Networks
- Title(参考訳): ディープニューラルネットワークを用いたテキスト中の数学的定義の自動発見
- Authors: Natalia Vanetik, Marina Litvak, Sergey Shevchuk, and Lior Reznik
- Abstract要約: 本稿では,数学的テキストにおける一文定義の自動検出に着目する。
畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory Network(LSTM)などのディープラーニング手法を適用した。
また、数学的テキストから定義を抽出するための新しいデータセットも提示する。
- 参考スコア(独自算出の注目度): 6.172021438837204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic definition extraction from texts is an important task that has
numerous applications in several natural language processing fields such as
summarization, analysis of scientific texts, automatic taxonomy generation,
ontology generation, concept identification, and question answering. For
definitions that are contained within a single sentence, this problem can be
viewed as a binary classification of sentences into definitions and
non-definitions. In this paper, we focus on automatic detection of one-sentence
definitions in mathematical texts, which are difficult to separate from
surrounding text. We experiment with several data representations, which
include sentence syntactic structure and word embeddings, and apply deep
learning methods such as the Convolutional Neural Network (CNN) and the Long
Short-Term Memory network (LSTM), in order to identify mathematical
definitions. Our experiments demonstrate the superiority of CNN and its
combination with LSTM, when applied on the syntactically-enriched input
representation. We also present a new dataset for definition extraction from
mathematical texts. We demonstrate that this dataset is beneficial for training
supervised models aimed at extraction of mathematical definitions. Our
experiments with different domains demonstrate that mathematical definitions
require special treatment, and that using cross-domain learning is inefficient
for that task.
- Abstract(参考訳): テキストからの自動定義抽出は、要約、科学文書の分析、自動分類法生成、オントロジー生成、概念同定、質問応答など、いくつかの自然言語処理分野において多くの応用がある重要なタスクである。
単一文に含まれる定義については、この問題は文を定義と非定義に二分分類したものと見なすことができる。
本稿では,周辺テキストから切り離すのが難しい数学的テキストにおける一文定義の自動検出に焦点を当てる。
文の構文構造や単語の埋め込みを含む複数のデータ表現を実験し,CNN(Convolutional Neural Network)やLSTM(Long Short-Term Memory Network)といった深層学習手法を用いて数学的定義を同定する。
本実験は,CNNとLSTMの組み合わせの優位性を,構文的にリッチな入力表現に適用した場合に示すものである。
また,数理テキストから定義を抽出するための新しいデータセットを提案する。
このデータセットは数学的定義の抽出を目的とした教師付きモデルのトレーニングに有用であることを示す。
異なる領域での実験により、数学的定義は特別な処理を必要とし、そのタスクにクロスドメイン学習を使うことは非効率であることが証明された。
関連論文リスト
- Complex Mathematical Symbol Definition Structures: A Dataset and Model
for Coordination Resolution in Definition Extraction [27.896132821710783]
我々は、全文科学論文から5,927文の英語データセットであるSymDefを提示する。
このデータセットは、特に「ふりかえり」構造のような複雑な協調構造に焦点を当てている。
本稿では,数理記号をマスキングし,各記号に対する各文のコピーを作成し,対象記号を指定し,スロットフィリングを用いて対応する定義の範囲を予測する新しい定義抽出手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T02:53:48Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - The geometry of integration in text classification RNNs [20.76659136484842]
本研究では,自然テキスト分類タスクと合成テキスト分類タスクの両方のバッテリで訓練されたリカレントネットワークについて検討する。
これらの訓練されたRNNの力学は、解釈可能かつ低次元であることがわかった。
我々の観測は、複数のアーキテクチャとデータセットにまたがっており、RNNがテキスト分類を行うのに使用する共通メカニズムを反映している。
論文 参考訳(メタデータ) (2020-10-28T17:58:53Z) - Context based Text-generation using LSTM networks [0.5330240017302621]
提案モデルでは,与えられた入力単語の集合とコンテキストベクトルのテキストを生成するように訓練されている。
生成したテキストのコンテキストに対するセマンティック・クローズネスに基づいて評価を行う。
論文 参考訳(メタデータ) (2020-04-30T18:39:25Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - Distributional semantic modeling: a revised technique to train term/word
vector space models applying the ontology-related approach [36.248702416150124]
ニューラルネットワークを用いた分散項表現(あるいは項埋め込み)学習による分布意味モデリングのための新しい手法を設計する。
Vec2graphは、動的かつインタラクティブなグラフとして単語埋め込み(私たちの場合の長期埋め込み)を視覚化するためのPythonライブラリである。
論文 参考訳(メタデータ) (2020-03-06T18:27:39Z) - Learn to Predict Sets Using Feed-Forward Neural Networks [63.91494644881925]
本稿では、ディープフィードフォワードニューラルネットワークを用いた設定予測の課題に対処する。
未知の置換と基数を持つ集合を予測するための新しい手法を提案する。
関連視覚問題に対する集合定式化の有効性を実証する。
論文 参考訳(メタデータ) (2020-01-30T01:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。