論文の概要: Entity Recognition and Relation Extraction from Scientific and Technical
Texts in Russian
- arxiv url: http://arxiv.org/abs/2011.09817v3
- Date: Sat, 26 Dec 2020 08:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:00:23.679164
- Title: Entity Recognition and Relation Extraction from Scientific and Technical
Texts in Russian
- Title(参考訳): ロシア語の科学・技術文献からのエンティティ認識と関係抽出
- Authors: Elena Bruches, Alexey Pauls, Tatiana Batura, Vladimir Isachenko
- Abstract要約: 本論文は,情報技術に関する学術文献から情報抽出方法の研究に係わるものである。
ロシア語の方法のいくつかの修正が提案されている。
また、キーワード抽出法、語彙法、ニューラルネットワークに基づくいくつかの手法を比較した実験結果も含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper is devoted to the study of methods for information extraction
(entity recognition and relation classification) from scientific texts on
information technology. Scientific publications provide valuable information
into cutting-edge scientific advances, but efficient processing of increasing
amounts of data is a time-consuming task. In this paper, several modifications
of methods for the Russian language are proposed. It also includes the results
of experiments comparing a keyword extraction method, vocabulary method, and
some methods based on neural networks. Text collections for these tasks exist
for the English language and are actively used by the scientific community, but
at present, such datasets in Russian are not publicly available. In this paper,
we present a corpus of scientific texts in Russian, RuSERRC. This dataset
consists of 1600 unlabeled documents and 80 labeled with entities and semantic
relations (6 relation types were considered). The dataset and models are
available at https://github.com/iis-research-team. We hope they can be useful
for research purposes and development of information extraction systems.
- Abstract(参考訳): 本稿では,情報技術に関する学術文献から情報抽出(エンティティ認識と関係分類)の手法について考察する。
科学出版物は最先端の科学的進歩に貴重な情報を提供するが、データ量の増加の効率的な処理は時間のかかる作業である。
本稿では、ロシア語の方法のいくつかの修正を提案する。
また、キーワード抽出法、語彙法、およびニューラルネットワークに基づくいくつかの方法の比較実験結果を含む。
これらのタスクのためのテキストコレクションは英語に存在し、科学コミュニティが積極的に使用しているが、現在、ロシア語のデータセットは公開されていない。
本稿では,ロシアにおける学術文献のコーパス,RuSERRCについて述べる。
このデータセットは1600の未ラベル文書と80のエンティティとセマンティックリレーションでラベル付けされている(6つの関係型が考慮された)。
データセットとモデルはhttps://github.com/iis-research-teamで入手できる。
情報抽出システムの研究や開発に活用できることを願っている。
関連論文リスト
- A Survey on Data Selection for Language Models [151.6210632830082]
データ選択方法は、トレーニングデータセットに含まれるデータポイントを決定することを目的としている。
ディープラーニングは、主に実証的な証拠によって駆動され、大規模なデータに対する実験は高価である。
広範なデータ選択研究のリソースを持つ組織はほとんどない。
論文 参考訳(メタデータ) (2024-02-26T18:54:35Z) - Automatic Aspect Extraction from Scientific Texts [0.9208007322096533]
我々は,タスク,コントリビューション,メソッド,コンクルージョンといった側面を付加した,ロシア語の科学テキストのクロスドメインデータセットを提示する。
異なる領域のアスペクト表現にはいくつかの相違があることが示されるが、我々のモデルは限られた数の科学領域で訓練されており、新しい領域に一般化することが可能である。
論文 参考訳(メタデータ) (2023-10-06T07:59:54Z) - Uzbek text summarization based on TF-IDF [0.0]
本稿では,ウズベク語における要約課題について実験する。
この手法はTF-IDFアルゴリズムに基づくテキスト抽象化に基づいている。
テキスト全体の重要な部分にn-gram法を適用することで、与えられたテキストを要約する。
論文 参考訳(メタデータ) (2023-03-01T12:39:46Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - TERMinator: A system for scientific texts processing [0.0]
本稿では,学術文献から実体の抽出とそれらの意味的関係について述べる。
本稿では,2つのタスクに対するアノテーションを含むデータセットと,言語モデルが単語認識に与える影響を研究するためのTERMinatorと呼ばれるシステムを提案する。
論文 参考訳(メタデータ) (2022-09-29T15:14:42Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - A system for information extraction from scientific texts in Russian [0.0]
このシステムは、用語認識、用語間の関係の抽出、知識ベースからエンティティとリンクする用語など、エンド・ツー・エンドの方法で複数のタスクを実行する。
実装された手法の利点は、システムが大量のラベル付きデータを必要とせず、データラベリングの時間と労力を節約できる点である。
ソースコードは公開されており、異なる研究目的で使用することができる。
論文 参考訳(メタデータ) (2021-09-14T14:08:37Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。