論文の概要: MIST: a Large-Scale Annotated Resource and Neural Models for Functions
of Modal Verbs in English Scientific Text
- arxiv url: http://arxiv.org/abs/2212.07156v1
- Date: Wed, 14 Dec 2022 11:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:07:41.219640
- Title: MIST: a Large-Scale Annotated Resource and Neural Models for Functions
of Modal Verbs in English Scientific Text
- Title(参考訳): MIST: 英語科学テキストにおけるモーダル動詞機能のための大規模アノテーションリソースとニューラルモデル
- Authors: Sophie Henning, Nicole Macher, Stefan Gr\"unewald, Annemarie Friedrich
- Abstract要約: MISTデータセットは5つの科学領域に3737のモーダル・インスタンスを含み、それらの意味、実用的、または修辞的機能に注釈を付ける。
我々は、MIST上で競合するニューラルネットワークの集合を体系的に評価する。
我々のコーパス分析は、科学的コミュニティがモーダル動詞の使用で異なることを示す証拠を提供する。
- 参考スコア(独自算出の注目度): 1.8502316793903635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modal verbs (e.g., "can", "should", or "must") occur highly frequently in
scientific articles. Decoding their function is not straightforward: they are
often used for hedging, but they may also denote abilities and restrictions.
Understanding their meaning is important for various NLP tasks such as writing
assistance or accurate information extraction from scientific text.
To foster research on the usage of modals in this genre, we introduce the
MIST (Modals In Scientific Text) dataset, which contains 3737 modal instances
in five scientific domains annotated for their semantic, pragmatic, or
rhetorical function. We systematically evaluate a set of competitive neural
architectures on MIST. Transfer experiments reveal that leveraging
non-scientific data is of limited benefit for modeling the distinctions in
MIST. Our corpus analysis provides evidence that scientific communities differ
in their usage of modal verbs, yet, classifiers trained on scientific data
generalize to some extent to unseen scientific domains.
- Abstract(参考訳): モーダル動詞(英: modal verbs、例:can、should、must)は、科学論文において頻繁に発生する動詞である。
関数の復号化は簡単ではなく、しばしばヘッジに使われるが、能力や制限を示すこともある。
それらの意味を理解することは、執筆支援や科学的テキストからの正確な情報抽出など、様々なNLPタスクにおいて重要である。
このジャンルにおけるモーダルの使用に関する研究を促進するために、本研究では、意味、実用的、または修辞的機能に注釈を付けた5つの科学的領域において3737のモーダルインスタンスを含むMISTデータセットを紹介する。
我々は、mist上の一連の競合ニューラルネットワークアーキテクチャを体系的に評価する。
転送実験により、非科学的データを活用することは、MISTの区別をモデル化するための限られた利益であることが明らかになった。
我々のコーパス分析は、科学的コミュニティがモーダル動詞の使用法が異なるという証拠を提供するが、科学的データに基づいて訓練された分類器は、ある程度の科学的領域に一般化する。
関連論文リスト
- Knowledge AI: Fine-tuning NLP Models for Facilitating Scientific Knowledge Extraction and Understanding [0.0]
本研究は,Large Language Models (LLMs) の,特定の領域における科学的知識の理解と抽出における有効性について検討する。
トレーニング済みのモデルを採用し、科学領域のデータセットを微調整します。
論文 参考訳(メタデータ) (2024-08-04T01:32:09Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - A Comprehensive Survey of Scientific Large Language Models and Their Applications in Scientific Discovery [68.48094108571432]
大規模言語モデル(LLM)は、テキストやその他のデータ処理方法に革命をもたらした。
我々は,科学LLM間のクロスフィールドおよびクロスモーダル接続を明らかにすることで,研究ランドスケープのより総合的なビューを提供することを目指している。
論文 参考訳(メタデータ) (2024-06-16T08:03:24Z) - MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference [65.37685198688538]
本稿では,5つの科学領域から抽出した132,320の文対を含むデータセットであるMSciNLIについて述べる。
我々は、微調整事前学習言語モデル(PLM)とLarge Language Model(LLM)によるMSciNLIの強力なベースラインを確立する。
ドメインシフトは、データセット内の異なるドメインの多様な特性を示す科学的なNLIモデルの性能を低下させることを示す。
論文 参考訳(メタデータ) (2024-04-11T18:12:12Z) - SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。
我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。
SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - Large Language Models for Scientific Synthesis, Inference and
Explanation [56.41963802804953]
大規模言語モデルがどのように科学的合成、推論、説明を行うことができるかを示す。
我々は,この「知識」を科学的文献から合成することで,大きな言語モデルによって強化できることを示す。
このアプローチは、大きな言語モデルが機械学習システムの予測を説明することができるというさらなる利点を持っている。
論文 参考訳(メタデータ) (2023-10-12T02:17:59Z) - Domain-specific ChatBots for Science using Embeddings [0.5687661359570725]
大規模言語モデル(LLM)は、無数のタスクを処理できる強力な機械学習システムとして登場した。
本稿では,既存の手法とソフトウェアツールを簡単に組み合わせて,ドメイン固有のチャットボットを実現する方法を紹介する。
論文 参考訳(メタデータ) (2023-06-15T15:26:20Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Context Matters: A Strategy to Pre-train Language Model for Science
Education [4.053049694533914]
BERTベースの言語モデルは、様々な言語関連タスクにおいて、従来のNLPモデルよりも大きな優位性を示している。
学生が使用する言語は、BERTのトレーニングソースであるジャーナルやウィキペディアの言語とは異なる。
本研究は,教育領域におけるドメイン固有データに対する継続事前学習の有効性を確認した。
論文 参考訳(メタデータ) (2023-01-27T23:50:16Z) - Leveraging knowledge graphs to update scientific word embeddings using
latent semantic imputation [0.0]
glslsiは、最新の知識グラフからドメイン固有の単語を埋め込むことができることを示す。
生物医学領域における希少項およびOOV項に対して,LSIは信頼性の高い埋め込みベクトルを生成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-27T12:15:26Z) - Semantic maps and metrics for science Semantic maps and metrics for
science using deep transformer encoders [1.599072005190786]
ディープトランスフォーマーネットワークによる自然言語理解の最近の進歩は、マッピング科学に新たな可能性をもたらす。
トランスフォーマー埋め込みモデルは、異なる言語文脈で異なる関連と意味の陰を捉えます。
本稿では,これらのツールを用いて学術文書を符号化する手法について報告する。
論文 参考訳(メタデータ) (2021-04-13T04:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。