論文の概要: Learning with Silver Standard Data for Zero-shot Relation Extraction
- arxiv url: http://arxiv.org/abs/2211.13883v1
- Date: Fri, 25 Nov 2022 04:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 16:08:01.638206
- Title: Learning with Silver Standard Data for Zero-shot Relation Extraction
- Title(参考訳): ゼロショット関係抽出のための銀標準データによる学習
- Authors: Tianyin Wang, Jianwei Wang, Ziqian Zeng
- Abstract要約: まず,銀標準データから少量のクリーンデータを検出し,選択したクリーンデータを用いて事前学習したモデルを微調整する。
ゼロショットREタスクでは,TACREDおよびWiki80データセットでベースラインを12%,11%上回る性能が得られた。
- 参考スコア(独自算出の注目度): 3.3409719900340256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The superior performance of supervised relation extraction (RE) methods
heavily relies on a large amount of gold standard data. Recent zero-shot
relation extraction methods converted the RE task to other NLP tasks and used
off-the-shelf models of these NLP tasks to directly perform inference on the
test data without using a large amount of RE annotation data. A potentially
valuable by-product of these methods is the large-scale silver standard data.
However, there is no further investigation on the use of potentially valuable
silver standard data. In this paper, we propose to first detect a small amount
of clean data from silver standard data and then use the selected clean data to
finetune the pretrained model. We then use the finetuned model to infer
relation types. We also propose a class-aware clean data detection module to
consider class information when selecting clean data. The experimental results
show that our method can outperform the baseline by 12% and 11% on TACRED and
Wiki80 dataset in the zero-shot RE task. By using extra silver standard data of
different distributions, the performance can be further improved.
- Abstract(参考訳): 教師付き関係抽出(re)法の優れた性能は、大量の金標準データに大きく依存している。
最近のゼロショット関係抽出法は、REタスクを他のNLPタスクに変換し、これらのNLPタスクのオフザシェルフモデルを使用して、大量のREアノテーションデータを用いることなく、テストデータに直接推論を行う。
これらの手法の潜在的に価値のある副産物は、大規模な銀標準データである。
しかし、潜在的に有価な銀標準データの使用に関するさらなる調査は行われていない。
本稿では,まず銀標準データから少量のクリーンデータを検出し,選択したクリーンデータを用いて事前学習したモデルを微調整する。
次に、関係型を推論するために微調整モデルを使用します。
また,クリーンデータを選択する際のクラス情報を考慮したクリーンデータ検出モジュールを提案する。
実験の結果, ゼロショットREタスクにおけるTACREDおよびWiki80データセットにおいて, ベースラインを12%, 11%上回る性能が得られた。
異なる分布の銀標準データを使用することで、さらなる性能向上が可能となる。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Training Task Experts through Retrieval Based Distillation [55.46054242512261]
ReBase(Retrieval Based Distillation)は、まずリッチなオンラインソースからデータを抽出し、それをドメイン固有のデータに変換する手法である。
SQADは最大7.8%,MNLIは1.37%,BigBench-Hardは1.94%向上した。
論文 参考訳(メタデータ) (2024-07-07T18:27:59Z) - On the use of Silver Standard Data for Zero-shot Classification Tasks in
Information Extraction [7.009047478272052]
本稿では,銀標準データを利用したゼロショット性能向上を目的とした新しいフレームワークであるClean-LaVeを提案する。
clean-LaVeは、(1)銀データを取得すること、(2)銀データから比較的きれいなデータを識別すること、(3)クリーンデータを用いて市販のモデルを微調整すること、(4)テストデータに対する推論である。
論文 参考訳(メタデータ) (2024-02-28T05:45:37Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - ZeroGen$^+$: Self-Guided High-Quality Data Generation in Efficient
Zero-Shot Learning [97.2907428983142]
ZeroGenは、純粋にPLMを使用してデータを生成し、タスク固有のアノテーションに頼ることなく、小さなモデルをトレーニングする。
金のデータを必要とせずに、サンプルごとの重み付けを学習できるノイズローバストなバイレベル再重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:38:48Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Automating Outlier Detection via Meta-Learning [37.736124230543865]
メタ学習をベースとした,Overier検出のためのモデル選択のための,最初の原則付きデータ駆動型アプローチであるMetaODを開発した。
検出モデルの選択におけるMetaODの有効性を示す。
この新しい問題をさらに研究するために、私たちはメタラーニングシステム全体、ベンチマーク環境、テストベッドデータセットをオープンソース化しました。
論文 参考訳(メタデータ) (2020-09-22T15:14:45Z) - Reinforced Negative Sampling over Knowledge Graph for Recommendation [106.07209348727564]
我々は、高品質なネガティブを探索する強化学習エージェントとして機能する新しい負サンプリングモデル、知識グラフポリシーネットワーク(kgPolicy)を開発した。
kgPolicyは、ターゲットのポジティブなインタラクションからナビゲートし、知識を意識したネガティブなシグナルを適応的に受信し、最終的にはリコメンダをトレーニングする潜在的なネガティブなアイテムを生成する。
論文 参考訳(メタデータ) (2020-03-12T12:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。