論文の概要: WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web
- arxiv url: http://arxiv.org/abs/2102.09681v1
- Date: Thu, 18 Feb 2021 23:56:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-22 13:25:58.863794
- Title: WebRED: Effective Pretraining And Finetuning For Relation Extraction On
The Web
- Title(参考訳): WebRED:Web上の関係抽出のための効果的な事前学習と微調整
- Authors: Robert Ormandi, Mohammad Saleh, Erin Winter, Vinay Rao
- Abstract要約: WebREDは、World Wide Webで見つかったテキストから関係を抽出するための強く監視された人間の注釈付きデータセットです。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
- 参考スコア(独自算出の注目度): 4.702325864333419
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Relation extraction is used to populate knowledge bases that are important to
many applications. Prior datasets used to train relation extraction models
either suffer from noisy labels due to distant supervision, are limited to
certain domains or are too small to train high-capacity models. This constrains
downstream applications of relation extraction. We therefore introduce: WebRED
(Web Relation Extraction Dataset), a strongly-supervised human annotated
dataset for extracting relationships from a variety of text found on the World
Wide Web, consisting of ~110K examples. We also describe the methods we used to
collect ~200M examples as pre-training data for this task. We show that
combining pre-training on a large weakly supervised dataset with fine-tuning on
a small strongly-supervised dataset leads to better relation extraction
performance. We provide baselines for this new dataset and present a case for
the importance of human annotation in improving the performance of relation
extraction from text found on the web.
- Abstract(参考訳): 関係抽出は、多くのアプリケーションにとって重要な知識ベースを蓄積するために用いられる。
関係抽出モデルのトレーニングに使用される以前のデータセットは、遠方の監視によってノイズの多いラベルに苦しむか、特定のドメインに限定されるか、高容量モデルをトレーニングするには小さすぎる。
これは関係抽出の下流の応用を制約する。
そこで、WebRED(Web Relation Extraction Dataset)は、約110Kの例から、World Wide Webにあるさまざまなテキストから関係を抽出するための、強く監視された人間のアノテーション付きデータセットです。
また,このタスクの事前学習データとして,約200mのサンプルを収集するために使用した手法についても述べる。
弱教師付きデータセットの事前学習と、教師付きデータセットの微調整を組み合わせることで、関係抽出性能が向上することを示す。
この新たなデータセットのベースラインを提供し、ウェブ上のテキストから関係抽出の性能を向上させる上で、人間のアノテーションの重要性を示す。
関連論文リスト
- STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - FREDA: Flexible Relation Extraction Data Annotation [1.3750624267664153]
本稿では,関係抽出作業のための高品質なデータセットを高速に作成する手法を提案する。
本研究は,19関係の10,022文を妥当な時間でアノテートすることができた。
論文 参考訳(メタデータ) (2022-04-14T17:57:53Z) - RTE: A Tool for Annotating Relation Triplets from Text [3.2958527541557525]
関係抽出では、2つの実体間の関係を参照する二項関係に焦点をあてる。
注釈付きクリーンデータセットの欠如は、この研究領域における重要な課題である。
本研究では、研究者が自身のデータセットで関係抽出に注釈を付けることができるウェブベースのツールを構築した。
論文 参考訳(メタデータ) (2021-08-18T14:54:22Z) - Representation Learning for Weakly Supervised Relation Extraction [19.689433249830465]
本論文では、分散テキスト表現機能を学ぶための教師なし事前学習モデルをいくつか提示する。
実験により,従来の手作りの特徴と組み合わせることで,関係抽出のためのロジスティック分類モデルの性能が向上することが実証された。
論文 参考訳(メタデータ) (2021-04-10T12:22:25Z) - Deep Neural Approaches to Relation Triplets Extraction: A Comprehensive
Survey [22.586079965178975]
我々は、公開データセット上のディープニューラルネットワークを用いた関係抽出に焦点を当てる。
文レベルの関係抽出,文書レベルの関係抽出,パイプラインによる共同抽出アプローチ,注釈付きデータセット,遠隔教師付きデータセットなどについて述べる。
本稿では,ニューラルネットワークについて,畳み込みモデル,リカレントネットワークモデル,アテンションネットワークモデル,グラフ畳み込みモデルについて報告する。
論文 参考訳(メタデータ) (2021-03-31T09:27:15Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。