論文の概要: MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain
- arxiv url: http://arxiv.org/abs/2307.02340v1
- Date: Wed, 5 Jul 2023 14:55:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 13:15:50.605043
- Title: MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain
- Title(参考訳): MuLMS-AZ: 材料科学領域のための抽象的なゾーニングデータセット
- Authors: Timo Pierre Schrader, Teresa B\"urkle, Sophie Henning, Sherry Tan,
Matteo Finco, Stefan Gr\"unewald, Maira Indrikova, Felix Hildebrand,
Annemarie Friedrich
- Abstract要約: AZ(Argumentative Zone)の分類は学術文書の処理を改善するために提案されている。
我々は、手動で注釈付けされた研究論文50点の新しいデータセットを提示し、リリースする。
- 参考スコア(独自算出の注目度): 1.209268134212644
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scientific publications follow conventionalized rhetorical structures.
Classifying the Argumentative Zone (AZ), e.g., identifying whether a sentence
states a Motivation, a Result or Background information, has been proposed to
improve processing of scholarly documents. In this work, we adapt and extend
this idea to the domain of materials science research. We present and release a
new dataset of 50 manually annotated research articles. The dataset spans seven
sub-topics and is annotated with a materials-science focused multi-label
annotation scheme for AZ. We detail corpus statistics and demonstrate high
inter-annotator agreement. Our computational experiments show that using
domain-specific pre-trained transformer-based text encoders is key to high
classification performance. We also find that AZ categories from existing
datasets in other domains are transferable to varying degrees.
- Abstract(参考訳): 科学出版物は伝統的な修辞構造に従っている。
議論的ゾーン(az)の分類,例えば,文章が動機づけ,結果,背景情報を示すかどうかの識別は,学術文書の処理を改善するために提案されている。
本研究では,この概念を材料科学研究の領域に適応し,拡張する。
我々は,50個の手作業による研究論文のデータセットを提示し,公開する。
データセットは7つのサブトピックにまたがり、azのマテリアルサイエンスに焦点を当てたマルチラベルアノテーションスキームでアノテートされる。
コーパス統計を詳述し、高いアノテータ間合意を示す。
計算実験により,領域特異的に事前学習したトランスフォーマベースのテキストエンコーダを用いることが,高い分類性能の鍵となることを示す。
また、他のドメインの既存のデータセットからのazカテゴリは、異なる程度に転送可能であることも分かりました。
関連論文リスト
- SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [65.47003941584244]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - RankAug: Augmented data ranking for text classification [0.0]
RankAugはテキストレベルのアプローチで、上位の強化テキストを検出し、フィルタリングする。
分類精度を35%まで向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-08T08:47:49Z) - MuLMS: A Multi-Layer Annotated Text Corpus for Information Extraction in
the Materials Science Domain [0.7947524927438001]
材料科学の7つのサブドメインにまたがる50のオープンアクセス記事のデータセットであるMulMSを提示する。
すべてのタスクに対して競合するニューラルモデルを提示し、既存の関連リソースによるマルチタスクトレーニングがメリットをもたらすことを示す。
論文 参考訳(メタデータ) (2023-10-24T07:23:46Z) - Automatic Aspect Extraction from Scientific Texts [0.9208007322096533]
我々は,タスク,コントリビューション,メソッド,コンクルージョンといった側面を付加した,ロシア語の科学テキストのクロスドメインデータセットを提示する。
異なる領域のアスペクト表現にはいくつかの相違があることが示されるが、我々のモデルは限られた数の科学領域で訓練されており、新しい領域に一般化することが可能である。
論文 参考訳(メタデータ) (2023-10-06T07:59:54Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Machine Identification of High Impact Research through Text and Image
Analysis [0.4737991126491218]
本稿では,引用の可能性が低い論文から高い論文を自動的に分離するシステムを提案する。
本システムでは,文書全体の外観を推測する視覚的分類器と,コンテンツインフォームド決定のためのテキスト分類器の両方を用いる。
論文 参考訳(メタデータ) (2020-05-20T19:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。