論文の概要: ProtoNER: Few shot Incremental Learning for Named Entity Recognition
using Prototypical Networks
- arxiv url: http://arxiv.org/abs/2310.02372v1
- Date: Tue, 3 Oct 2023 18:52:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 18:03:51.326373
- Title: ProtoNER: Few shot Incremental Learning for Named Entity Recognition
using Prototypical Networks
- Title(参考訳): ProtoNER: プロトタイプネットワークを用いた名前付きエンティティ認識のためのショットインクリメンタル学習
- Authors: Ritesh Kumar, Saurabh Goyal, Ashish Verma, Vatche Isahagian
- Abstract要約: プロトタイプネットワークに基づくエンドツーエンドKVP抽出モデルを示す。
モデルの初期トレーニングに使用されるデータセットに依存しない。
ノイズを付加し、結果としてモデルの性能劣化を引き起こすような中間合成データ生成は行われない。
- 参考スコア(独自算出の注目度): 7.317342506617286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Key value pair (KVP) extraction or Named Entity Recognition(NER) from
visually rich documents has been an active area of research in document
understanding and data extraction domain. Several transformer based models such
as LayoutLMv2, LayoutLMv3, and LiLT have emerged achieving state of the art
results. However, addition of even a single new class to the existing model
requires (a) re-annotation of entire training dataset to include this new class
and (b) retraining the model again. Both of these issues really slow down the
deployment of updated model. \\ We present \textbf{ProtoNER}: Prototypical
Network based end-to-end KVP extraction model that allows addition of new
classes to an existing model while requiring minimal number of newly annotated
training samples. The key contributions of our model are: (1) No dependency on
dataset used for initial training of the model, which alleviates the need to
retain original training dataset for longer duration as well as data
re-annotation which is very time consuming task, (2) No intermediate synthetic
data generation which tends to add noise and results in model's performance
degradation, and (3) Hybrid loss function which allows model to retain
knowledge about older classes as well as learn about newly added classes.\\
Experimental results show that ProtoNER finetuned with just 30 samples is able
to achieve similar results for the newly added classes as that of regular model
finetuned with 2600 samples.
- Abstract(参考訳): 視覚的にリッチな文書からキーバリューペア(KVP)抽出や名前付きエンティティ認識(NER)は、文書理解とデータ抽出領域において活発な研究領域となっている。
LayoutLMv2、LayoutLMv3、LiLTなど、いくつかのトランスフォーマーベースのモデルが技術成果の達成を実現している。
しかし、既存のモデルに1つの新しいクラスを追加する必要がある。
(a)この新クラスを含むためのトレーニングデータセット全体の再アノテーション
(b)再びモデルを再訓練する。
これらの問題はどちらも、更新されたモデルのデプロイを本当に遅くする。
原型ネットワークベースのエンドツーエンドのKVP抽出モデルで、既存のモデルに新しいクラスを追加できると同時に、新たに注釈付けされたトレーニングサンプルの最小数を必要とします。
The key contributions of our model are: (1) No dependency on dataset used for initial training of the model, which alleviates the need to retain original training dataset for longer duration as well as data re-annotation which is very time consuming task, (2) No intermediate synthetic data generation which tends to add noise and results in model's performance degradation, and (3) Hybrid loss function which allows model to retain knowledge about older classes as well as learn about newly added classes.
実験の結果、30個のサンプルで微調整されたプロトンは、2600個のサンプルで微調整された通常のモデルと同様の結果が得られることがわかった。
関連論文リスト
- Realistic Image-to-Image Machine Unlearning via Decoupling and Knowledge Retention [1.795561427808824]
機械学習モデルは、目に見えないデータに対してかなりよく機能する、と私たちは主張する。
本稿では,モデルパラメータを勾配上昇で分離するフレームワークを提案する。
また、勾配のあるモデル更新に対して$(epsilon, delta)$-unlearningの保証も提供しています。
論文 参考訳(メタデータ) (2025-02-06T17:46:49Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Predictive process mining by network of classifiers and clusterers: the
PEDF model [0.0]
PEDFモデルは、イベントのシーケンス、期間、追加機能に基づいて学習する。
このモデルはログファイルから2つのデータセットを抽出する必要がある。
論文 参考訳(メタデータ) (2020-11-22T23:27:19Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Two-Level Residual Distillation based Triple Network for Incremental
Object Detection [21.725878050355824]
本稿では,より高速なR-CNNに基づく新しいインクリメンタルオブジェクト検出手法を提案する。
従来の学習知識を忘れることなく、新しいクラスでの漸進的なモデル学習を支援するためのアシスタントとして、古いモデルと残留モデルを使用する三重ネットワークである。
論文 参考訳(メタデータ) (2020-07-27T11:04:57Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。