論文の概要: MIST: a Large-Scale Annotated Resource and Neural Models for Functions
of Modal Verbs in English Scientific Text
- arxiv url: http://arxiv.org/abs/2212.07156v1
- Date: Wed, 14 Dec 2022 11:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:07:41.219640
- Title: MIST: a Large-Scale Annotated Resource and Neural Models for Functions
of Modal Verbs in English Scientific Text
- Title(参考訳): MIST: 英語科学テキストにおけるモーダル動詞機能のための大規模アノテーションリソースとニューラルモデル
- Authors: Sophie Henning, Nicole Macher, Stefan Gr\"unewald, Annemarie Friedrich
- Abstract要約: MISTデータセットは5つの科学領域に3737のモーダル・インスタンスを含み、それらの意味、実用的、または修辞的機能に注釈を付ける。
我々は、MIST上で競合するニューラルネットワークの集合を体系的に評価する。
我々のコーパス分析は、科学的コミュニティがモーダル動詞の使用で異なることを示す証拠を提供する。
- 参考スコア(独自算出の注目度): 1.8502316793903635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modal verbs (e.g., "can", "should", or "must") occur highly frequently in
scientific articles. Decoding their function is not straightforward: they are
often used for hedging, but they may also denote abilities and restrictions.
Understanding their meaning is important for various NLP tasks such as writing
assistance or accurate information extraction from scientific text.
To foster research on the usage of modals in this genre, we introduce the
MIST (Modals In Scientific Text) dataset, which contains 3737 modal instances
in five scientific domains annotated for their semantic, pragmatic, or
rhetorical function. We systematically evaluate a set of competitive neural
architectures on MIST. Transfer experiments reveal that leveraging
non-scientific data is of limited benefit for modeling the distinctions in
MIST. Our corpus analysis provides evidence that scientific communities differ
in their usage of modal verbs, yet, classifiers trained on scientific data
generalize to some extent to unseen scientific domains.
- Abstract(参考訳): モーダル動詞(英: modal verbs、例:can、should、must)は、科学論文において頻繁に発生する動詞である。
関数の復号化は簡単ではなく、しばしばヘッジに使われるが、能力や制限を示すこともある。
それらの意味を理解することは、執筆支援や科学的テキストからの正確な情報抽出など、様々なNLPタスクにおいて重要である。
このジャンルにおけるモーダルの使用に関する研究を促進するために、本研究では、意味、実用的、または修辞的機能に注釈を付けた5つの科学的領域において3737のモーダルインスタンスを含むMISTデータセットを紹介する。
我々は、mist上の一連の競合ニューラルネットワークアーキテクチャを体系的に評価する。
転送実験により、非科学的データを活用することは、MISTの区別をモデル化するための限られた利益であることが明らかになった。
我々のコーパス分析は、科学的コミュニティがモーダル動詞の使用法が異なるという証拠を提供するが、科学的データに基づいて訓練された分類器は、ある程度の科学的領域に一般化する。
関連論文リスト
- Large Language Models for Scientific Synthesis, Inference and
Explanation [56.41963802804953]
大規模言語モデルがどのように科学的合成、推論、説明を行うことができるかを示す。
我々は,この「知識」を科学的文献から合成することで,大きな言語モデルによって強化できることを示す。
このアプローチは、大きな言語モデルが機械学習システムの予測を説明することができるというさらなる利点を持っている。
論文 参考訳(メタデータ) (2023-10-12T02:17:59Z) - Large Language Models for Automated Open-domain Scientific Hypotheses
Discovery [53.40975887946237]
本研究は,社会科学の学術的仮説発見のための最初のNLPデータセットを提案する。
最近のトップ50の社会科学出版物と生のウェブコーパスで構成されている。
最後の目標は、有効で斬新で有用な科学的仮説を自動的に生成するシステムを作ることだ。
論文 参考訳(メタデータ) (2023-09-06T05:19:41Z) - Domain-specific ChatBots for Science using Embeddings [0.5687661359570725]
大規模言語モデル(LLM)は、無数のタスクを処理できる強力な機械学習システムとして登場した。
本稿では,既存の手法とソフトウェアツールを簡単に組み合わせて,ドメイン固有のチャットボットを実現する方法を紹介する。
論文 参考訳(メタデータ) (2023-06-15T15:26:20Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Context Matters: A Strategy to Pre-train Language Model for Science
Education [4.053049694533914]
BERTベースの言語モデルは、様々な言語関連タスクにおいて、従来のNLPモデルよりも大きな優位性を示している。
学生が使用する言語は、BERTのトレーニングソースであるジャーナルやウィキペディアの言語とは異なる。
本研究は,教育領域におけるドメイン固有データに対する継続事前学習の有効性を確認した。
論文 参考訳(メタデータ) (2023-01-27T23:50:16Z) - Leveraging knowledge graphs to update scientific word embeddings using
latent semantic imputation [0.0]
glslsiは、最新の知識グラフからドメイン固有の単語を埋め込むことができることを示す。
生物医学領域における希少項およびOOV項に対して,LSIは信頼性の高い埋め込みベクトルを生成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-27T12:15:26Z) - Modeling Information Change in Science Communication with Semantically
Matched Paraphrases [50.67030449927206]
SPICEDは、情報変化の度合いに注釈を付けた科学的な発見の最初のパラフレーズデータセットである。
SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。
SPICEDで訓練されたモデルは、実世界の科学的主張の事実チェックのための証拠検索において下流のパフォーマンスを改善する。
論文 参考訳(メタデータ) (2022-10-24T07:44:38Z) - An Informational Space Based Semantic Analysis for Scientific Texts [62.997667081978825]
本稿では、意味分析のための計算手法と、短い科学的テキストの意味の定量化について紹介する。
科学的意味の表現は、心理的特性ではなく、状況表現を置き換えることで標準化される。
本研究は,テキストの意味の幾何学的表現の基礎となる研究である。
論文 参考訳(メタデータ) (2022-05-31T11:19:32Z) - Expressing High-Level Scientific Claims with Formal Semantics [0.8258451067861932]
我々は、すべての分野の科学論文のサンプルから主要な主張を分析する。
それらの意味論は RDF や OWL のような形式論の直接的な応用よりも複雑である。
ここでは、このスーパーパターンの5つのスロットのインスタンス化が、高階論理における厳密に定義されたステートメントにどのように導かれるかを示す。
論文 参考訳(メタデータ) (2021-09-27T09:52:49Z) - Semantic Analysis for Automated Evaluation of the Potential Impact of
Research Articles [62.997667081978825]
本稿では,情報理論に基づくテキスト意味のベクトル表現のための新しい手法を提案する。
この情報意味論がLeicester Scientific Corpusに基づいてテキスト分類にどのように使用されるかを示す。
テキストの意味を表現するための情報的アプローチは,研究論文の科学的影響を効果的に予測する方法であることを示す。
論文 参考訳(メタデータ) (2021-04-26T20:37:13Z) - Semantic maps and metrics for science Semantic maps and metrics for
science using deep transformer encoders [1.599072005190786]
ディープトランスフォーマーネットワークによる自然言語理解の最近の進歩は、マッピング科学に新たな可能性をもたらす。
トランスフォーマー埋め込みモデルは、異なる言語文脈で異なる関連と意味の陰を捉えます。
本稿では,これらのツールを用いて学術文書を符号化する手法について報告する。
論文 参考訳(メタデータ) (2021-04-13T04:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。