論文の概要: Entity Recognition and Relation Extraction from Scientific and Technical
Texts in Russian
- arxiv url: http://arxiv.org/abs/2011.09817v3
- Date: Sat, 26 Dec 2020 08:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:00:23.679164
- Title: Entity Recognition and Relation Extraction from Scientific and Technical
Texts in Russian
- Title(参考訳): ロシア語の科学・技術文献からのエンティティ認識と関係抽出
- Authors: Elena Bruches, Alexey Pauls, Tatiana Batura, Vladimir Isachenko
- Abstract要約: 本論文は,情報技術に関する学術文献から情報抽出方法の研究に係わるものである。
ロシア語の方法のいくつかの修正が提案されている。
また、キーワード抽出法、語彙法、ニューラルネットワークに基づくいくつかの手法を比較した実験結果も含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is devoted to the study of methods for information extraction
(entity recognition and relation classification) from scientific texts on
information technology. Scientific publications provide valuable information
into cutting-edge scientific advances, but efficient processing of increasing
amounts of data is a time-consuming task. In this paper, several modifications
of methods for the Russian language are proposed. It also includes the results
of experiments comparing a keyword extraction method, vocabulary method, and
some methods based on neural networks. Text collections for these tasks exist
for the English language and are actively used by the scientific community, but
at present, such datasets in Russian are not publicly available. In this paper,
we present a corpus of scientific texts in Russian, RuSERRC. This dataset
consists of 1600 unlabeled documents and 80 labeled with entities and semantic
relations (6 relation types were considered). The dataset and models are
available at https://github.com/iis-research-team. We hope they can be useful
for research purposes and development of information extraction systems.
- Abstract(参考訳): 本稿では,情報技術に関する学術文献から情報抽出(エンティティ認識と関係分類)の手法について考察する。
科学出版物は最先端の科学的進歩に貴重な情報を提供するが、データ量の増加の効率的な処理は時間のかかる作業である。
本稿では、ロシア語の方法のいくつかの修正を提案する。
また、キーワード抽出法、語彙法、およびニューラルネットワークに基づくいくつかの方法の比較実験結果を含む。
これらのタスクのためのテキストコレクションは英語に存在し、科学コミュニティが積極的に使用しているが、現在、ロシア語のデータセットは公開されていない。
本稿では,ロシアにおける学術文献のコーパス,RuSERRCについて述べる。
このデータセットは1600の未ラベル文書と80のエンティティとセマンティックリレーションでラベル付けされている(6つの関係型が考慮された)。
データセットとモデルはhttps://github.com/iis-research-teamで入手できる。
情報抽出システムの研究や開発に活用できることを願っている。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - SciDMT: A Large-Scale Corpus for Detecting Scientific Mentions [52.35520385083425]
SciDMTは,科学的言及検出のための拡張および拡張されたコーパスである。
コーパスは,1)SciDMTの主コーパスは8万4千件の科学的論文と8百万件以上の弱い注釈付き言及アノテーションと,2)評価目的のために手作業で注釈付けされた100件の科学的論文からなる評価セットから構成される。
論文 参考訳(メタデータ) (2024-06-20T22:03:21Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers [0.20482269513546458]
本稿では、ロシア語科学論文のマルチモーダルデータセットの作成と、自動テキスト要約作業のための既存の言語モデルの試験について論じる。
データセットの特徴は、テキスト、テーブル、フィギュアを含むマルチモーダルデータである。
論文 参考訳(メタデータ) (2024-05-13T16:21:33Z) - Automatic Aspect Extraction from Scientific Texts [0.9208007322096533]
我々は,タスク,コントリビューション,メソッド,コンクルージョンといった側面を付加した,ロシア語の科学テキストのクロスドメインデータセットを提示する。
異なる領域のアスペクト表現にはいくつかの相違があることが示されるが、我々のモデルは限られた数の科学領域で訓練されており、新しい領域に一般化することが可能である。
論文 参考訳(メタデータ) (2023-10-06T07:59:54Z) - Uzbek text summarization based on TF-IDF [0.0]
本稿では,ウズベク語における要約課題について実験する。
この手法はTF-IDFアルゴリズムに基づくテキスト抽象化に基づいている。
テキスト全体の重要な部分にn-gram法を適用することで、与えられたテキストを要約する。
論文 参考訳(メタデータ) (2023-03-01T12:39:46Z) - TERMinator: A system for scientific texts processing [0.0]
本稿では,学術文献から実体の抽出とそれらの意味的関係について述べる。
本稿では,2つのタスクに対するアノテーションを含むデータセットと,言語モデルが単語認識に与える影響を研究するためのTERMinatorと呼ばれるシステムを提案する。
論文 参考訳(メタデータ) (2022-09-29T15:14:42Z) - A system for information extraction from scientific texts in Russian [0.0]
このシステムは、用語認識、用語間の関係の抽出、知識ベースからエンティティとリンクする用語など、エンド・ツー・エンドの方法で複数のタスクを実行する。
実装された手法の利点は、システムが大量のラベル付きデータを必要とせず、データラベリングの時間と労力を節約できる点である。
ソースコードは公開されており、異なる研究目的で使用することができる。
論文 参考訳(メタデータ) (2021-09-14T14:08:37Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。