論文の概要: STAD: Self-Training with Ambiguous Data for Low-Resource Relation
Extraction
- arxiv url: http://arxiv.org/abs/2209.01431v1
- Date: Sat, 3 Sep 2022 14:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:33:38.371917
- Title: STAD: Self-Training with Ambiguous Data for Low-Resource Relation
Extraction
- Title(参考訳): STAD:低リソース関係抽出のための曖昧なデータによる自己学習
- Authors: Junjie Yu, Xing Wang, Jiangjiang Zhao, Chunjie Yang and Wenliang Chen
- Abstract要約: 我々は,低リソース関係抽出のための簡易かつ効果的な自己学習手法STADを提案する。
SemEval2010 Task-8とRe-TACREDの低リソース設定で広く使われている2つのデータセットの実験結果から、この新しい自己学習アプローチが顕著で一貫した改善を実現することが示されている。
- 参考スコア(独自算出の注目度): 7.750796307269968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a simple yet effective self-training approach, named as STAD, for
low-resource relation extraction. The approach first classifies the
auto-annotated instances into two groups: confident instances and uncertain
instances, according to the probabilities predicted by a teacher model. In
contrast to most previous studies, which mainly only use the confident
instances for self-training, we make use of the uncertain instances. To this
end, we propose a method to identify ambiguous but useful instances from the
uncertain instances and then divide the relations into candidate-label set and
negative-label set for each ambiguous instance. Next, we propose a set-negative
training method on the negative-label sets for the ambiguous instances and a
positive training method for the confident instances. Finally, a joint-training
method is proposed to build the final relation extraction system on all data.
Experimental results on two widely used datasets SemEval2010 Task-8 and
Re-TACRED with low-resource settings demonstrate that this new self-training
approach indeed achieves significant and consistent improvements when comparing
to several competitive self-training systems. Code is publicly available at
https://github.com/jjyunlp/STAD
- Abstract(参考訳): 我々は,低リソース関係抽出のための簡易かつ効果的な自己学習手法STADを提案する。
このアプローチは最初に、教師モデルによって予測される確率に従って、自信のあるインスタンスと不確定なインスタンスという2つのグループに分類する。
主に自信のあるインスタンスのみを自己学習に使用するこれまでのほとんどの研究とは対照的に、不確実性のあるインスタンスを利用する。
そこで本研究では,不確定なインスタンスから曖昧だが有用なインスタンスを識別し,その関係を候補ラベル集合と負ラベル集合に分割する手法を提案する。
次に,不明瞭なインスタンスに対する負のラベル集合に対する集合負のトレーニング法と,自信のあるインスタンスに対する正のトレーニング法を提案する。
最後に,全てのデータから最終関係抽出システムを構築するための共同学習手法を提案する。
広く使われている2つのデータセットであるsemeval2010 task-8と低リソース設定で再設計された実験の結果、この新しいセルフトレーニングアプローチが、いくつかの競合するセルフトレーニングシステムと比較した場合、実際に有意かつ一貫した改善を達成していることを示している。
コードはhttps://github.com/jjyunlp/STADで公開されている。
関連論文リスト
- Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Few-shot Learning via Dependency Maximization and Instance Discriminant
Analysis [21.8311401851523]
そこで本研究では,カテゴリ毎にラベル付きデータが極めて少ない新しいオブジェクトの認識をモデルが学習する,数ショットの学習問題について検討する。
本稿では,少数ショット処理に伴うラベルなしデータを利用して,少数ショット性能を向上させるための簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T02:19:01Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Out-of-Scope Intent Detection with Self-Supervision and Discriminative
Training [20.242645823965145]
タスク指向対話システムにおいて、スコープ外インテント検出は実用上重要である。
本稿では,テストシナリオをシミュレートして,スコープ外インテント分類器をエンドツーエンドに学習する手法を提案する。
提案手法を4つのベンチマーク・ダイアログ・データセット上で広範囲に評価し,最先端のアプローチに対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-16T08:17:18Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Two-phase Pseudo Label Densification for Self-training based Domain
Adaptation [93.03265290594278]
TPLDと呼ばれる,新規な二相擬似ラベル高密度化フレームワークを提案する。
第1フェーズでは,スライディングウインドウ投票を用いて,画像内の内在的空間相関を利用して,自信のある予測を広める。
第2フェーズでは,信頼度に基づく容易な分類を行う。
トレーニングプロセスの容易化と騒音予測の回避を目的として,ブートストラップ機構の導入を行った。
論文 参考訳(メタデータ) (2020-12-09T02:35:25Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。