論文の概要: Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections
- arxiv url: http://arxiv.org/abs/2305.02291v1
- Date: Wed, 3 May 2023 17:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 13:47:48.866914
- Title: Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections
- Title(参考訳): デジタル図書館コレクションの学習知識グラフ構築のためのBERTに基づく科学関係分類器の評価
- Authors: Ming Jiang, Jennifer D'Souza, S\"oren Auer, J. Stephen Downie
- Abstract要約: 関連する科学的概念間の意味的関係を推測することは重要なステップである。
BERTベースの事前学習モデルは、自動関係分類のために広く研究されている。
既存の手法は主にクリーンテキストで評価される。
これらの制限に対処するため、私たちはOCRノイズの多いテキストを作成しました。
- 参考スコア(独自算出の注目度): 5.8962650619804755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of research publications has placed great demands on digital
libraries (DL) for advanced information management technologies. To cater to
these demands, techniques relying on knowledge-graph structures are being
advocated. In such graph-based pipelines, inferring semantic relations between
related scientific concepts is a crucial step. Recently, BERT-based pre-trained
models have been popularly explored for automatic relation classification.
Despite significant progress, most of them were evaluated in different
scenarios, which limits their comparability. Furthermore, existing methods are
primarily evaluated on clean texts, which ignores the digitization context of
early scholarly publications in terms of machine scanning and optical character
recognition (OCR). In such cases, the texts may contain OCR noise, in turn
creating uncertainty about existing classifiers' performances. To address these
limitations, we started by creating OCR-noisy texts based on three clean
corpora. Given these parallel corpora, we conducted a thorough empirical
evaluation of eight Bert-based classification models by focusing on three
factors: (1) Bert variants; (2) classification strategies; and, (3) OCR noise
impacts. Experiments on clean data show that the domain-specific pre-trained
Bert is the best variant to identify scientific relations. The strategy of
predicting a single relation each time outperforms the one simultaneously
identifying multiple relations in general. The optimal classifier's performance
can decline by around 10% to 20% in F-score on the noisy corpora. Insights
discussed in this study can help DL stakeholders select techniques for building
optimal knowledge-graph-based systems.
- Abstract(参考訳): 研究出版物の急速な成長は、先進的な情報管理技術に対するデジタル図書館(dl)の需要を大きく高めている。
これらの要求を満たすため、知識グラフ構造に依存する技術が提唱されている。
このようなグラフベースのパイプラインでは、関連する科学的概念間の意味関係を推測することが重要なステップである。
近年,BERTをベースとした事前学習モデルによる関係の自動分類が盛んに行われている。
かなりの進歩にもかかわらず、そのほとんどは異なるシナリオで評価され、互換性が制限された。
さらに、既存の手法は主にクリーンテキストに基づいて評価され、機械スキャンと光学文字認識(OCR)の観点から、初期の学術出版物のデジタル化コンテキストを無視する。
そのような場合、テキストにはocrノイズが含まれ、既存の分類器のパフォーマンスに不確実性が生じる。
これらの制約に対処するため、3つのクリーンコーパスに基づいたOCRノイズテキストの作成に着手した。
これらの並列コーパスを仮定し,(1)bert変種,(2)分類戦略,(3)ocr騒音の影響という3つの要因に着目し,bertに基づく分類モデルの徹底的な評価を行った。
クリーンデータに関する実験では、ドメイン固有の事前学習されたbertが、科学的関係を特定するのに最適な変種であることが示されている。
一つの関係を予測する戦略は、一般に複数の関係を同時に識別する手法よりも優れている。
最適な分類器の性能は、ノイズコーパス上のFスコアで約10%から20%低下することができる。
本研究では,DL利害関係者が最適な知識グラフベースシステムを構築するためのテクニックを選択するのに役立つ。
関連論文リスト
- Continual Learning with Pre-Trained Models: A Survey [66.49084129482239]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Cross-corpus Readability Compatibility Assessment for English Texts [6.225179315266989]
本稿では,新たな評価フレームワークであるクロスコーパステキスト可読性評価を提案する。
このフレームワークは、コーパス:CEFR、CLEC、CLOTH、NES、OSP、RACEの3つの主要なコンポーネントを含んでいる。
この結果,OSPは他のデータセットと大きく異なっていた。
論文 参考訳(メタデータ) (2023-06-16T09:15:39Z) - Modeling Multi-Granularity Hierarchical Features for Relation Extraction [26.852869800344813]
本稿では,原文のみに基づく多粒度特徴抽出手法を提案する。
外部知識を必要とせずに,効果的な構造的特徴が達成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-09T09:44:05Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Improving Scholarly Knowledge Representation: Evaluating BERT-based
Models for Scientific Relation Classification [5.8962650619804755]
領域固有の事前学習コーパスは,Bertに基づく分類モデルにより,科学的関係のタイプを特定することができることを示す。
1回に1つの関係を予測する戦略は高い分類精度を達成するが、後者の戦略は、大小のアノテーションでコーパス内でより一貫した性能を示す。
論文 参考訳(メタデータ) (2020-04-13T18:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。