論文の概要: Automatic Aspect Extraction from Scientific Texts
- arxiv url: http://arxiv.org/abs/2310.04074v1
- Date: Fri, 6 Oct 2023 07:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-09 23:20:11.256763
- Title: Automatic Aspect Extraction from Scientific Texts
- Title(参考訳): 科学テキストからの自動アスペクト抽出
- Authors: Anna Marshalova, Elena Bruches, Tatiana Batura
- Abstract要約: 我々は,タスク,コントリビューション,メソッド,コンクルージョンといった側面を付加した,ロシア語の科学テキストのクロスドメインデータセットを提示する。
異なる領域のアスペクト表現にはいくつかの相違があることが示されるが、我々のモデルは限られた数の科学領域で訓練されており、新しい領域に一般化することが可能である。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Being able to extract from scientific papers their main points, key insights,
and other important information, referred to here as aspects, might facilitate
the process of conducting a scientific literature review. Therefore, the aim of
our research is to create a tool for automatic aspect extraction from
Russian-language scientific texts of any domain. In this paper, we present a
cross-domain dataset of scientific texts in Russian, annotated with such
aspects as Task, Contribution, Method, and Conclusion, as well as a baseline
algorithm for aspect extraction, based on the multilingual BERT model
fine-tuned on our data. We show that there are some differences in aspect
representation in different domains, but even though our model was trained on a
limited number of scientific domains, it is still able to generalize to new
domains, as was proved by cross-domain experiments. The code and the dataset
are available at
\url{https://github.com/anna-marshalova/automatic-aspect-extraction-from-scientific-texts}.
- Abstract(参考訳): 科学論文から主要なポイント、重要な洞察、その他の重要な情報を抽出できることは、ここでアスペクトとして言及され、科学文献レビューの実施プロセスを促進する可能性がある。
そこで本研究では,任意の分野のロシア語科学文献から自動アスペクト抽出ツールを開発することを目的としている。
本稿では,タスク,貢献,方法,結論といった側面をアノテートした,ロシア語の科学文章のクロスドメインデータセットと,データに微調整された多言語bertモデルに基づくアスペクト抽出のためのベースラインアルゴリズムを提案する。
異なる領域のアスペクト表現にはいくつかの違いがあるが、我々のモデルは限られた数の科学領域で訓練されているにもかかわらず、クロスドメイン実験によって証明されたように、新しい領域に一般化することができる。
コードとデータセットは \url{https://github.com/anna-marshalova/automatic-aspect-extraction-from-scientific-texts} で利用可能である。
関連論文リスト
- Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian [1.565361244756411]
我々は、ロシア語の科学文献におけるキーフレーズ選択の特定のタスクに対して、微調整による生成トランスフォーマーモデルを適用する方法について検討した。
実験は、数学とコンピュータ科学、歴史、医学、言語学という4つの領域のロシアの科学的抽象のテキスト上で行われた。
生成モデル、すなわちmBARTの使用は、ロシア語の3つのキーフレーズ抽出ベースラインよりも、ドメイン内のパフォーマンス(BERTScoreが4.9%、ROUGE-1が9.0%、F1スコアが12.2%)が向上した。
論文 参考訳(メタデータ) (2024-09-16T18:15:28Z) - SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。
オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。
このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文 参考訳(メタデータ) (2024-01-24T14:23:12Z) - Seed-Guided Fine-Grained Entity Typing in Science and Engineering
Domains [51.02035914828596]
科学・工学分野において,シード誘導型細粒度エンティティタイピングの課題について検討する。
まず、ラベルのないコーパスから各タイプのエンティティを抽出し、弱い監視力を高めるSETypeを提案する。
そして、リッチなエンティティをラベルなしのテキストにマッチさせ、擬似ラベル付きサンプルを取得し、見知らぬ型と見えない型の両方に推論できるテキストエンテリメントモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-23T22:36:03Z) - Cross-Domain Robustness of Transformer-based Keyphrase Generation [1.8492669447784602]
キーフレーズのリストは、データベースや電子文書のリポジトリにおけるテキストの重要な要素である。
本実験では,キーフレーズ生成のために微調整された抽象テキスト要約モデルを用いて,目的のテキストコーパスに対して非常に高い結果を示す。
本稿では,6つのベンチマークコーパス間のキーフレーズ選択タスクに対する微調整BARTモデルの評価を行う。
論文 参考訳(メタデータ) (2023-12-17T12:27:15Z) - MuLMS-AZ: An Argumentative Zoning Dataset for the Materials Science
Domain [1.209268134212644]
AZ(Argumentative Zone)の分類は学術文書の処理を改善するために提案されている。
我々は、手動で注釈付けされた研究論文50点の新しいデータセットを提示し、リリースする。
論文 参考訳(メタデータ) (2023-07-05T14:55:18Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Entity Recognition and Relation Extraction from Scientific and Technical
Texts in Russian [0.0]
本論文は,情報技術に関する学術文献から情報抽出方法の研究に係わるものである。
ロシア語の方法のいくつかの修正が提案されている。
また、キーワード抽出法、語彙法、ニューラルネットワークに基づくいくつかの手法を比較した実験結果も含まれている。
論文 参考訳(メタデータ) (2020-11-19T13:40:03Z) - WikiAsp: A Dataset for Multi-domain Aspect-based Summarization [69.13865812754058]
マルチドメインアスペクトベースの要約のための大規模データセットであるWikiAspを提案する。
具体的には、アスペクトアノテーションのプロキシとして、各記事のセクションタイトルとバウンダリを使用して、20の異なるドメインからウィキペディア記事を使用してデータセットを構築します。
その結果,既存の要約モデルがこの設定で直面する重要な課題,例えば引用されたソースの適切な代名詞処理,時間に敏感なイベントの一貫した説明などが浮き彫りになった。
論文 参考訳(メタデータ) (2020-11-16T10:02:52Z) - Semantic and Relational Spaces in Science of Science: Deep Learning
Models for Article Vectorisation [4.178929174617172]
我々は、自然言語処理(NLP)とグラフニューラルネットワーク(GNN)を用いて、記事の意味的・関係的な側面に基づく文書レベルの埋め込みに焦点を当てる。
論文のセマンティックな空間をNLPでエンコードできるのに対し、GNNでは研究コミュニティの社会的実践をエンコードするリレーショナルな空間を構築することができる。
論文 参考訳(メタデータ) (2020-11-05T14:57:41Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。