論文の概要: MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain
- arxiv url: http://arxiv.org/abs/2307.02340v1
- Date: Wed, 5 Jul 2023 14:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:15:50.605043
- Title: MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain
- Title(参考訳): MuLMS-AZ: 材料科学領域のための抽象的なゾーニングデータセット
- Authors: Timo Pierre Schrader, Teresa B\"urkle, Sophie Henning, Sherry Tan,
Matteo Finco, Stefan Gr\"unewald, Maira Indrikova, Felix Hildebrand,
Annemarie Friedrich
- Abstract要約: AZ(Argumentative Zone)の分類は学術文書の処理を改善するために提案されている。
我々は、手動で注釈付けされた研究論文50点の新しいデータセットを提示し、リリースする。
- 参考スコア(独自算出の注目度): 1.209268134212644
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scientific publications follow conventionalized rhetorical structures.
Classifying the Argumentative Zone (AZ), e.g., identifying whether a sentence
states a Motivation, a Result or Background information, has been proposed to
improve processing of scholarly documents. In this work, we adapt and extend
this idea to the domain of materials science research. We present and release a
new dataset of 50 manually annotated research articles. The dataset spans seven
sub-topics and is annotated with a materials-science focused multi-label
annotation scheme for AZ. We detail corpus statistics and demonstrate high
inter-annotator agreement. Our computational experiments show that using
domain-specific pre-trained transformer-based text encoders is key to high
classification performance. We also find that AZ categories from existing
datasets in other domains are transferable to varying degrees.
- Abstract(参考訳): 科学出版物は伝統的な修辞構造に従っている。
議論的ゾーン(az)の分類,例えば,文章が動機づけ,結果,背景情報を示すかどうかの識別は,学術文書の処理を改善するために提案されている。
本研究では,この概念を材料科学研究の領域に適応し,拡張する。
我々は,50個の手作業による研究論文のデータセットを提示し,公開する。
データセットは7つのサブトピックにまたがり、azのマテリアルサイエンスに焦点を当てたマルチラベルアノテーションスキームでアノテートされる。
コーパス統計を詳述し、高いアノテータ間合意を示す。
計算実験により,領域特異的に事前学習したトランスフォーマベースのテキストエンコーダを用いることが,高い分類性能の鍵となることを示す。
また、他のドメインの既存のデータセットからのazカテゴリは、異なる程度に転送可能であることも分かりました。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Classification and Clustering of Sentence-Level Embeddings of Scientific Articles Generated by Contrastive Learning [1.104960878651584]
提案手法は,科学論文から文レベルの埋め込みを生成するための微調整変換言語モデルで構成されている。
対照的な学習で3つのデータセットでモデルをトレーニングしました。
比較学習と下流タスクへの埋め込みを併用した微調整文変換器は,学術論文における文分類への実現可能なアプローチであることを示す。
論文 参考訳(メタデータ) (2024-03-30T02:52:14Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-24T07:23:46Z) - Automatic Aspect Extraction from Scientific Texts [0.9208007322096533]
我々は,タスク,コントリビューション,メソッド,コンクルージョンといった側面を付加した,ロシア語の科学テキストのクロスドメインデータセットを提示する。
異なる領域のアスペクト表現にはいくつかの相違があることが示されるが、我々のモデルは限られた数の科学領域で訓練されており、新しい領域に一般化することが可能である。
論文 参考訳(メタデータ) (2023-10-06T07:59:54Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。