論文の概要: Active Learning for Event Extraction with Memory-based Loss Prediction
Model
- arxiv url: http://arxiv.org/abs/2112.03073v3
- Date: Sat, 18 Mar 2023 03:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:30:03.123064
- Title: Active Learning for Event Extraction with Memory-based Loss Prediction
Model
- Title(参考訳): メモリベース損失予測モデルを用いたイベント抽出のためのアクティブラーニング
- Authors: Shirong Shen and Zhen Li and Guilin Qi
- Abstract要約: イベント抽出は、多くの産業アプリケーションシナリオにおいて重要な役割を果たす。
イベントアノテーションのコストを削減するために,アクティブラーニング(AL)技術を導入する。
バッチベースの選択戦略とメモリベース損失予測モデル(MBLP)を提案し,ラベルのないサンプルを効率的に選択する。
- 参考スコア(独自算出の注目度): 12.509218857483223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event extraction (EE) plays an important role in many industrial application
scenarios, and high-quality EE methods require a large amount of manual
annotation data to train supervised learning models. However, the cost of
obtaining annotation data is very high, especially for annotation of domain
events, which requires the participation of experts from corresponding domain.
So we introduce active learning (AL) technology to reduce the cost of event
annotation. But the existing AL methods have two main problems, which make them
not well used for event extraction. Firstly, the existing pool-based selection
strategies have limitations in terms of computational cost and sample validity.
Secondly, the existing evaluation of sample importance lacks the use of local
sample information. In this paper, we present a novel deep AL method for EE. We
propose a batch-based selection strategy and a Memory-Based Loss Prediction
model (MBLP) to select unlabeled samples efficiently. During the selection
process, we use an internal-external sample loss ranking method to evaluate the
sample importance by using local information. Finally, we propose a delayed
training strategy to train the MBLP model. Extensive experiments are performed
on three domain datasets, and our method outperforms other state-of-the-art
methods.
- Abstract(参考訳): イベント抽出(EE)は多くの産業アプリケーションシナリオにおいて重要な役割を担い、高品質のEEメソッドは教師付き学習モデルのトレーニングに大量の手動アノテーションデータを必要とする。
しかし、特にドメインイベントのアノテーションにおいて、アノテーションデータを取得するコストは非常に高く、対応するドメインから専門家が参加する必要がある。
そこで、イベントアノテーションのコストを削減するためにアクティブラーニング(AL)技術を導入しました。
しかし、既存のalメソッドには2つの大きな問題があり、イベント抽出にはあまり役に立たない。
第一に、既存のプールベースの選択戦略は、計算コストとサンプル有効性の観点から制限がある。
第2に、既存のサンプルの重要性の評価は、ローカルなサンプル情報の使用を欠いている。
本稿では,eeのための新しい深層al法を提案する。
バッチベースの選択戦略とメモリベース損失予測モデル(MBLP)を提案し,ラベルのないサンプルを効率的に選択する。
選択過程において,局所情報を用いてサンプル重要度を評価するために,内部外サンプル損失ランキング法を用いる。
最後に,MBLPモデルをトレーニングするための遅延学習戦略を提案する。
3つのドメインデータセットで広範な実験が行われ、この手法は他の最先端メソッドよりも優れています。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - An Experimental Design Framework for Label-Efficient Supervised Finetuning of Large Language Models [55.01592097059969]
命令データセットの監視された微調整は、目覚ましいゼロショットの一般化能力を達成する上で重要な役割を担っている。
アクティブラーニングは、未ラベルのプールからアノテートするサンプルの有用なサブセットを特定するのに効果的である。
本研究では,能動学習の計算ボトルネックを回避するための実験設計を提案する。
論文 参考訳(メタデータ) (2024-01-12T16:56:54Z) - Optimal Sample Selection Through Uncertainty Estimation and Its
Application in Deep Learning [22.410220040736235]
コアセット選択とアクティブラーニングの両方に対処するための理論的に最適な解を提案する。
提案手法であるCOPSは,サブサンプルデータに基づいてトレーニングされたモデルの損失を最小限に抑えるために設計されている。
論文 参考訳(メタデータ) (2023-09-05T14:06:33Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - An Efficient Active Learning Pipeline for Legal Text Classification [2.462514989381979]
法律分野における事前学習言語モデルを用いて,能動的学習を効果的に活用するためのパイプラインを提案する。
我々は、知識蒸留を用いてモデルの埋め込みを意味論的意味のある空間に導く。
分類タスクに適応したContract-NLIとLEDGARベンチマークの実験により,本手法が標準AL戦略より優れていることが示された。
論文 参考訳(メタデータ) (2022-11-15T13:07:02Z) - Active Pointly-Supervised Instance Segmentation [106.38955769817747]
アクティブポイント制御型インスタンスセグメンテーション(APIS)という,経済的なアクティブな学習環境を提案する。
APISはボックスレベルのアノテーションから始まり、ボックス内のポイントを反復的にサンプリングし、オブジェクトに落ちているかどうかを問う。
これらの戦略で開発されたモデルは、挑戦的なMS-COCOデータセットに対して一貫したパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2022-07-23T11:25:24Z) - Sampling Strategy for Fine-Tuning Segmentation Models to Crisis Area
under Scarcity of Data [0.76146285961466]
本研究では,推定モデルとサンプル特性に基づいて,微調整中のデータ収集をガイドする手法を提案する。
我々は,ビルディング検出のリモートセンシングアプリケーションにおいて,セマンティックセグメンテーション(U-Net)の深層学習モデルに適用した。
論文 参考訳(メタデータ) (2022-02-09T23:16:58Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - Knowledge-driven Active Learning [70.37119719069499]
アクティブな学習戦略は、ディープラーニングモデルをトレーニングするために必要なラベル付きデータの量を最小限にすることを目的としている。
ほとんどの積極的な戦略は不確実なサンプルの選択に基づいており、しばしば決定境界に近いサンプルに制限される。
本稿では、一般的なドメイン知識を考慮し、エキスパートでないユーザがより少ないサンプルでモデルを訓練できるようにする。
論文 参考訳(メタデータ) (2021-10-15T06:11:53Z) - Semi-supervised Batch Active Learning via Bilevel Optimization [89.37476066973336]
両レベル最適化によるデータ要約問題として,本手法を定式化する。
本手法は,ラベル付きサンプルがほとんど存在しない場合,レジーム内のキーワード検出タスクにおいて極めて有効であることを示す。
論文 参考訳(メタデータ) (2020-10-19T16:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。