論文の概要: Solving Label Variation in Scientific Information Extraction via
Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2312.15751v1
- Date: Mon, 25 Dec 2023 15:24:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 16:44:40.254675
- Title: Solving Label Variation in Scientific Information Extraction via
Multi-Task Learning
- Title(参考訳): マルチタスク学習による科学情報抽出におけるラベル変動の解法
- Authors: Dong Pham, Xanh Ho, Quang-Thuy Ha and Akiko Aizawa
- Abstract要約: ScientificIEの2つの一般的なデータセットは、SemEval-2018 Task-7とSciERCである。
重複するサンプルを持ち、アノテーションのスキームが異なるため、矛盾が生じる。
ラベルのバリエーションに対処するためのマルチタスク学習に基づく新しいアプローチを最初に導入した。
そこで,不整合ラベルを確率分布に変換するソフトラベリング手法を提案する。
- 参考スコア(独自算出の注目度): 25.665931699170198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific Information Extraction (ScientificIE) is a critical task that
involves the identification of scientific entities and their relationships. The
complexity of this task is compounded by the necessity for domain-specific
knowledge and the limited availability of annotated data. Two of the most
popular datasets for ScientificIE are SemEval-2018 Task-7 and SciERC. They have
overlapping samples and differ in their annotation schemes, which leads to
conflicts. In this study, we first introduced a novel approach based on
multi-task learning to address label variations. We then proposed a soft
labeling technique that converts inconsistent labels into probabilistic
distributions. The experimental results demonstrated that the proposed method
can enhance the model robustness to label noise and improve the end-to-end
performance in both ScientificIE tasks. The analysis revealed that label
variations can be particularly effective in handling ambiguous instances.
Furthermore, the richness of the information captured by label variations can
potentially reduce data size requirements. The findings highlight the
importance of releasing variation labels and promote future research on other
tasks in other domains. Overall, this study demonstrates the effectiveness of
multi-task learning and the potential of label variations to enhance the
performance of ScientificIE.
- Abstract(参考訳): 科学的情報抽出(ScientificIE)は、科学的実体とその関係を識別する重要な課題である。
このタスクの複雑さは、ドメイン固有の知識と注釈付きデータの限られた可用性の必要性によって複雑になる。
ScientificIEで最も人気のあるデータセットはSemEval-2018 Task-7とSciERCである。
重複したサンプルを持ち、アノテーションのスキームが異なるため、コンフリクトが発生する。
本研究では,ラベル変動に対処するマルチタスク学習に基づく新しいアプローチを最初に導入した。
そこで,不整合ラベルを確率分布に変換するソフトラベリング手法を提案する。
実験の結果,提案手法は,ラベルノイズに対するモデルのロバスト性を高め,科学的タスクにおけるエンドツーエンドの性能を向上させることができた。
分析の結果,ラベルの変動はあいまいなインスタンスの処理に特に有効であることが判明した。
さらに、ラベルのバリエーションによって取得される情報の豊かさは、データサイズ要求を減少させる可能性がある。
この発見は、変動ラベルをリリースすることの重要性を強調し、他の領域における他のタスクに関する今後の研究を促進する。
本研究は,ScientificIEの性能を高めるため,マルチタスク学習の有効性とラベル変動の可能性を示す。
関連論文リスト
- Drawing the Same Bounding Box Twice? Coping Noisy Annotations in Object
Detection with Repeated Labels [6.872072177648135]
そこで本研究では,基礎的真理推定手法に適合する新しい局所化アルゴリズムを提案する。
また,本アルゴリズムは,TexBiGデータセット上でのトレーニングにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-18T13:08:44Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Leaf Cultivar Identification via Prototype-enhanced Learning [16.554823962192486]
植物葉の識別は生物多様性の保護と保全に不可欠である。
実際には、インスタンスは多種多様で様々な程度に関連づけられることがある。
ワンホットラベルでトレーニングされたディープラーニングメソッドは、カテゴリ間で共有されるパターンを反映しない。
論文 参考訳(メタデータ) (2023-05-05T08:11:31Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - Tyger: Task-Type-Generic Active Learning for Molecular Property
Prediction [121.97742787439546]
分子の性質を正確に予測する方法は、AIによる薬物発見において重要な問題である。
アノテーションのコストを削減するため,注釈付けのための最も代表的で情報性の高いデータのみを選択するために,深層能動学習法が開発された。
本稿では,異なるタイプの学習タスクを統一的に処理できるタスク型汎用能動的学習フレームワーク(Tyger)を提案する。
論文 参考訳(メタデータ) (2022-05-23T12:56:12Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z) - Adversarial Feature Hallucination Networks for Few-Shot Learning [84.31660118264514]
Adversarial Feature Hallucination Networks (AFHN) は条件付き Wasserstein Generative Adversarial Network (cWGAN) に基づいている。
合成された特徴の識別性と多様性を促進するために、2つの新規レギュレータがAFHNに組み込まれている。
論文 参考訳(メタデータ) (2020-03-30T02:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。