論文の概要: Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections
- arxiv url: http://arxiv.org/abs/2305.02291v1
- Date: Wed, 3 May 2023 17:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 13:47:48.866914
- Title: Evaluating BERT-based Scientific Relation Classifiers for Scholarly
Knowledge Graph Construction on Digital Library Collections
- Title(参考訳): デジタル図書館コレクションの学習知識グラフ構築のためのBERTに基づく科学関係分類器の評価
- Authors: Ming Jiang, Jennifer D'Souza, S\"oren Auer, J. Stephen Downie
- Abstract要約: 関連する科学的概念間の意味的関係を推測することは重要なステップである。
BERTベースの事前学習モデルは、自動関係分類のために広く研究されている。
既存の手法は主にクリーンテキストで評価される。
これらの制限に対処するため、私たちはOCRノイズの多いテキストを作成しました。
- 参考スコア(独自算出の注目度): 5.8962650619804755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of research publications has placed great demands on digital
libraries (DL) for advanced information management technologies. To cater to
these demands, techniques relying on knowledge-graph structures are being
advocated. In such graph-based pipelines, inferring semantic relations between
related scientific concepts is a crucial step. Recently, BERT-based pre-trained
models have been popularly explored for automatic relation classification.
Despite significant progress, most of them were evaluated in different
scenarios, which limits their comparability. Furthermore, existing methods are
primarily evaluated on clean texts, which ignores the digitization context of
early scholarly publications in terms of machine scanning and optical character
recognition (OCR). In such cases, the texts may contain OCR noise, in turn
creating uncertainty about existing classifiers' performances. To address these
limitations, we started by creating OCR-noisy texts based on three clean
corpora. Given these parallel corpora, we conducted a thorough empirical
evaluation of eight Bert-based classification models by focusing on three
factors: (1) Bert variants; (2) classification strategies; and, (3) OCR noise
impacts. Experiments on clean data show that the domain-specific pre-trained
Bert is the best variant to identify scientific relations. The strategy of
predicting a single relation each time outperforms the one simultaneously
identifying multiple relations in general. The optimal classifier's performance
can decline by around 10% to 20% in F-score on the noisy corpora. Insights
discussed in this study can help DL stakeholders select techniques for building
optimal knowledge-graph-based systems.
- Abstract(参考訳): 研究出版物の急速な成長は、先進的な情報管理技術に対するデジタル図書館(dl)の需要を大きく高めている。
これらの要求を満たすため、知識グラフ構造に依存する技術が提唱されている。
このようなグラフベースのパイプラインでは、関連する科学的概念間の意味関係を推測することが重要なステップである。
近年,BERTをベースとした事前学習モデルによる関係の自動分類が盛んに行われている。
かなりの進歩にもかかわらず、そのほとんどは異なるシナリオで評価され、互換性が制限された。
さらに、既存の手法は主にクリーンテキストに基づいて評価され、機械スキャンと光学文字認識(OCR)の観点から、初期の学術出版物のデジタル化コンテキストを無視する。
そのような場合、テキストにはocrノイズが含まれ、既存の分類器のパフォーマンスに不確実性が生じる。
これらの制約に対処するため、3つのクリーンコーパスに基づいたOCRノイズテキストの作成に着手した。
これらの並列コーパスを仮定し,(1)bert変種,(2)分類戦略,(3)ocr騒音の影響という3つの要因に着目し,bertに基づく分類モデルの徹底的な評価を行った。
クリーンデータに関する実験では、ドメイン固有の事前学習されたbertが、科学的関係を特定するのに最適な変種であることが示されている。
一つの関係を予測する戦略は、一般に複数の関係を同時に識別する手法よりも優れている。
最適な分類器の性能は、ノイズコーパス上のFスコアで約10%から20%低下することができる。
本研究では,DL利害関係者が最適な知識グラフベースシステムを構築するためのテクニックを選択するのに役立つ。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Why do you cite? An investigation on citation intents and decision-making classification processes [1.7812428873698407]
本研究は,引用意図を信頼して分類することの重要性を強調する。
本稿では,citation Intent Classification (CIC) のための高度なアンサンブル戦略を用いた研究について述べる。
我々のモデルの1つは、SciCiteベンチマークで89.46%のマクロF1スコアを持つ新しい最先端(SOTA)として設定されている。
論文 参考訳(メタデータ) (2024-07-18T09:29:33Z) - Pushing the Boundary: Specialising Deep Configuration Performance Learning [0.0]
この論文は、構成性能モデリングにおけるディープラーニング技術に関する体系的な文献レビューから始まる。
第一の知識のギャップは、どの符号化方式が優れているかについての理解の欠如である。
第二の知識ギャップは、構成のランドスケープから受け継がれた空間である。
論文 参考訳(メタデータ) (2024-07-02T22:59:19Z) - Investigating Persuasion Techniques in Arabic: An Empirical Study Leveraging Large Language Models [0.13980986259786224]
本稿では、アラビアのソーシャルメディアコンテンツにおける説得的手法の同定に焦点をあてた総合的な実証的研究について述べる。
我々は、プレトレーニング言語モデル(PLM)を利用し、ArAlEvalデータセットを活用する。
本研究では,PLMの力を活用した3つの学習手法について検討した。
論文 参考訳(メタデータ) (2024-05-21T15:55:09Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Continual Learning with Pre-Trained Models: A Survey [61.97613090666247]
継続的な学習は、新しい知識を学ぶ際に、かつての知識の破滅的な忘れを克服することを目的としている。
本稿では, PTM を用いた CL の最近の進歩を包括的に調査する。
論文 参考訳(メタデータ) (2024-01-29T18:27:52Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Improving Scholarly Knowledge Representation: Evaluating BERT-based
Models for Scientific Relation Classification [5.8962650619804755]
領域固有の事前学習コーパスは,Bertに基づく分類モデルにより,科学的関係のタイプを特定することができることを示す。
1回に1つの関係を予測する戦略は高い分類精度を達成するが、後者の戦略は、大小のアノテーションでコーパス内でより一貫した性能を示す。
論文 参考訳(メタデータ) (2020-04-13T18:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。