論文の概要: Complex Mathematical Symbol Definition Structures: A Dataset and Model
for Coordination Resolution in Definition Extraction
- arxiv url: http://arxiv.org/abs/2305.14660v1
- Date: Wed, 24 May 2023 02:53:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:17:25.303384
- Title: Complex Mathematical Symbol Definition Structures: A Dataset and Model
for Coordination Resolution in Definition Extraction
- Title(参考訳): 複素数式記号定義構造:定義抽出におけるコーディネーション解決のためのデータセットとモデル
- Authors: Anna Martin-Boyle, Andrew Head, Kyle Lo, Risham Sidhu, Marti A.
Hearst, and Dongyeop Kang
- Abstract要約: 我々は、全文科学論文から5,927文の英語データセットであるSymDefを提示する。
このデータセットは、特に「ふりかえり」構造のような複雑な協調構造に焦点を当てている。
本稿では,数理記号をマスキングし,各記号に対する各文のコピーを作成し,対象記号を指定し,スロットフィリングを用いて対応する定義の範囲を予測する新しい定義抽出手法を提案する。
- 参考スコア(独自算出の注目度): 27.896132821710783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mathematical symbol definition extraction is important for improving
scholarly reading interfaces and scholarly information extraction (IE).
However, the task poses several challenges: math symbols are difficult to
process as they are not composed of natural language morphemes; and scholarly
papers often contain sentences that require resolving complex coordinate
structures. We present SymDef, an English language dataset of 5,927 sentences
from full-text scientific papers where each sentence is annotated with all
mathematical symbols linked with their corresponding definitions. This dataset
focuses specifically on complex coordination structures such as "respectively"
constructions, which often contain overlapping definition spans. We also
introduce a new definition extraction method that masks mathematical symbols,
creates a copy of each sentence for each symbol, specifies a target symbol, and
predicts its corresponding definition spans using slot filling. Our experiments
show that our definition extraction model significantly outperforms RoBERTa and
other strong IE baseline systems by 10.9 points with a macro F1 score of 84.82.
With our dataset and model, we can detect complex definitions in scholarly
documents to make scientific writing more readable.
- Abstract(参考訳): 数式記号定義抽出は学術的読解インタフェースと学術的情報抽出(ie)を改善する上で重要である。
しかし、この課題にはいくつかの課題がある: 数学記号は自然言語形態素から構成されていないため、処理が困難であり、学術論文には複雑な座標構造を解く必要のある文がしばしば含まれている。
本稿では,全文科学論文から得られた5,927文の英語データセットであるsymdefについて述べる。
このデータセットは、しばしば重なり合う定義スパンを含む「ふりかえり」構造のような複雑な調整構造に特化している。
また,数式記号をマスクし,各記号に対して各文のコピーを作成し,対象記号を特定し,スロット充填を用いて対応する定義スパンを予測する,新たな定義抽出手法を提案する。
我々の定義抽出モデルは,マクロF1スコア84.82で,RoBERTaや他の強力なIEベースラインシステムよりも10.9ポイント優れていた。
データセットとモデルを用いて、学術文書の複雑な定義を検出し、科学的な文章をより読みやすくする。
関連論文リスト
- STEM-POM: Evaluating Language Models Math-Symbol Reasoning in Document Parsing [2.2315518704035595]
STEM-PoM(STEM-PoM)は,大規模言語モデルの数学記号に対する推論能力を評価するためのベンチマークデータセットである。
データセットには変数、定数、演算子、および単位記述子の主属性に分類される2K以上の数学記号が含まれている。
実験により,現状のLLMはテキスト内学習では平均20-60%,微調整では50-60%の精度が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-01T06:25:06Z) - PosFormer: Recognizing Complex Handwritten Mathematical Expression with Position Forest Transformer [51.260384040953326]
手書き数学的表現認識(HMER)は、人間と機械の相互作用シナリオに広く応用されている。
本稿では,HMERのための位置フォレスト変換器(PosFormer)を提案する。
PosFormerは、最先端のメソッドである2.03%/1.22%/2、1.83%、および4.62%を一貫して上回っている。
論文 参考訳(メタデータ) (2024-07-10T15:42:58Z) - Measuring Annotator Agreement Generally across Complex Structured,
Multi-object, and Free-text Annotation Tasks [79.24863171717972]
品質保証のための重要な指標は、IAA(Inter-annotator Agreement)である。
単純な分類的および順序的なラベリングタスクには対策があるが、より複雑なラベリングタスクを考える作業はほとんどない。
クリッペンドルフのαは、より単純なラベリングタスクでよく用いられるが、より広い適用性を持つ距離ベースの定式化を持つ。
論文 参考訳(メタデータ) (2022-12-15T20:12:48Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z) - COMPILING: A Benchmark Dataset for Chinese Complexity Controllable
Definition Generation [2.935516292500541]
本稿では,制御可能な複雑性レベルを持つ単語の定義を生成する新しいタスクを提案する。
中国語の定義に関する詳細な情報を得たデータセットCompilingを導入し、その複雑性レベルをラベル付けする。
論文 参考訳(メタデータ) (2022-09-29T08:17:53Z) - Symlink: A New Dataset for Scientific Symbol-Description Linking [69.97278287534157]
本稿では,学術文献における記号や記述の抽出を重視した大規模データセットを提案する。
Symlinkの実験は、既存のモデルに対するシンボル記述リンクタスクの課題を実証するものである。
論文 参考訳(メタデータ) (2022-04-26T04:36:14Z) - Compositional Generalization Requires Compositional Parsers [69.77216620997305]
直近のCOGSコーパスにおける構成原理によって導かれるシーケンス・ツー・シーケンスモデルとモデルを比較した。
構造一般化は構成一般化の重要な尺度であり、複雑な構造を認識するモデルを必要とする。
論文 参考訳(メタデータ) (2022-02-24T07:36:35Z) - Incorporating Constituent Syntax for Coreference Resolution [50.71868417008133]
本稿では,構成構文構造をグラフベースで組み込む手法を提案する。
また、高次近傍情報を利用して構成木に富んだ構造をエンコードすることも検討する。
on the English and Chinese parts of OntoNotes 5.0 benchmark shows that our proposed model beats a strong baseline or a new-of-the-art performance。
論文 参考訳(メタデータ) (2022-02-22T07:40:42Z) - Automated Discovery of Mathematical Definitions in Text with Deep Neural
Networks [6.172021438837204]
本稿では,数学的テキストにおける一文定義の自動検出に着目する。
畳み込みニューラルネットワーク(CNN)やLong Short-Term Memory Network(LSTM)などのディープラーニング手法を適用した。
また、数学的テキストから定義を抽出するための新しいデータセットも提示する。
論文 参考訳(メタデータ) (2020-11-09T15:57:53Z) - CompLex: A New Corpus for Lexical Complexity Prediction from Likert
Scale Data [13.224233182417636]
本稿では,連続語彙複雑性予測のための最初の英語データセットを提案する。
我々は5点のLikertスケールスキームを用いて、聖書、Europarl、バイオメディカルテキストの3つのソース/ドメインから、複雑な単語をテキストに注釈付けする。
論文 参考訳(メタデータ) (2020-03-16T03:54:22Z) - \AE THEL: Automatically Extracted Typelogical Derivations for Dutch [0.8379286663107844]
AETHELはオランダ語で書かれた意味的な構成法である。
AETHELの型と導出は、LASSY Smallの構文解析に応用された抽出アルゴリズムを用いて得られる。
論文 参考訳(メタデータ) (2019-12-29T11:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。