論文の概要: PyTAIL: Interactive and Incremental Learning of NLP Models with Human in
the Loop for Online Data
- arxiv url: http://arxiv.org/abs/2211.13786v1
- Date: Thu, 24 Nov 2022 20:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 14:21:40.963307
- Title: PyTAIL: Interactive and Incremental Learning of NLP Models with Human in
the Loop for Online Data
- Title(参考訳): PyTAIL: オンラインデータのためのループ内の人間とNLPモデルの対話的・漸進的学習
- Authors: Shubhanshu Mishra, Jana Diesner
- Abstract要約: PyTAILは、人間のループアプローチでNLPモデルを積極的に訓練できるピソンライブラリである。
テキスト分類のための既存のソーシャルメディアベンチマークデータセット上でのPyTAILの性能をシミュレートする。
- 参考スコア(独自算出の注目度): 1.576409420083207
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Online data streams make training machine learning models hard because of
distribution shift and new patterns emerging over time. For natural language
processing (NLP) tasks that utilize a collection of features based on lexicons
and rules, it is important to adapt these features to the changing data. To
address this challenge we introduce PyTAIL, a python library, which allows a
human in the loop approach to actively train NLP models. PyTAIL enhances
generic active learning, which only suggests new instances to label by also
suggesting new features like rules and lexicons to label. Furthermore, PyTAIL
is flexible enough for users to accept, reject, or update rules and lexicons as
the model is being trained. Finally, we simulate the performance of PyTAIL on
existing social media benchmark datasets for text classification. We compare
various active learning strategies on these benchmarks. The model closes the
gap with as few as 10% of the training data. Finally, we also highlight the
importance of tracking evaluation metric on remaining data (which is not yet
merged with active learning) alongside the test dataset. This highlights the
effectiveness of the model in accurately annotating the remaining dataset,
which is especially suitable for batch processing of large unlabelled corpora.
PyTAIL will be available at https://github.com/socialmediaie/pytail.
- Abstract(参考訳): オンラインデータストリームは、分散シフトと時間とともに出現する新しいパターンのために、機械学習モデルのトレーニングを難しくする。
語彙と規則に基づく特徴集合を利用する自然言語処理(NLP)タスクでは,これらの特徴を変化データに適応させることが重要である。
この課題に対処するため、私たちはpytailというpythonライブラリを導入しました。
PyTAILはジェネリックアクティブラーニングを強化し、ラベルに新しいインスタンスを提案するだけでなく、ルールやレキシコンなどの新機能をラベルに提案する。
さらに、PyTAILは、モデルがトレーニングされているときに、ユーザーがルールやレキシコンを受け入れ、拒否し、更新するのに十分な柔軟性がある。
最後に,テキスト分類のための既存のソーシャルメディアベンチマークデータセットにおけるpytailの性能をシミュレートする。
これらのベンチマークで、さまざまなアクティブな学習戦略を比較します。
このモデルは、トレーニングデータの最大10%でギャップを閉じる。
最後に、テストデータセットと並行して、残りのデータ(アクティブラーニングとマージされていない)に対する評価メトリクスの追跡の重要性についても強調する。
これは、大きなラベルのないコーパスのバッチ処理に特に適する、残りのデータセットを正確にアノテートするモデルの有効性を強調している。
PyTAILはhttps://github.com/socialmediaie/pytail.comから入手できる。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Self-Training for Sample-Efficient Active Learning for Text Classification with Pre-Trained Language Models [3.546617486894182]
我々は,4つのテキスト分類ベンチマークで評価した,新しい効果的な自己学習戦略であるHASTを紹介する。
その結果、4つのデータセットのうち3つに対して、再現された自己学習手法よりも優れており、以前の実験に匹敵する分類結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-13T15:06:11Z) - Towards Efficient Active Learning in NLP via Pretrained Representations [1.90365714903665]
ファインチューニング大型言語モデル(LLM)は、今や幅広いアプリケーションにおけるテキスト分類の一般的なアプローチである。
能動学習ループ内でのLLMの事前学習表現を用いて,このプロセスを大幅に高速化する。
私たちの戦略は、アクティブな学習ループを通した微調整と同じようなパフォーマンスを得るが、計算コストは桁違いに低い。
論文 参考訳(メタデータ) (2024-02-23T21:28:59Z) - BaSAL: Size-Balanced Warm Start Active Learning for LiDAR Semantic
Segmentation [2.9290232815049926]
既存のアクティブな学習方法は、LiDARセマンティックセグメンテーションデータセットに固有の深刻なクラス不均衡を見落としている。
本研究では,各オブジェクトクラスが特徴的サイズであることを示す観測結果に基づいて,サイズバランスの取れたウォームスタートアクティブラーニングモデルBaSALを提案する。
その結果,初期モデルの性能を大きなマージンで改善できることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T05:03:19Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Iterative Loop Learning Combining Self-Training and Active Learning for
Domain Adaptive Semantic Segmentation [1.827510863075184]
この問題を緩和するために、自己学習とアクティブラーニングが提案されている。
本稿では,自己学習とアクティブラーニングを組み合わせた反復ループ学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:31:43Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Bayesian Active Learning with Pretrained Language Models [9.161353418331245]
Active Learning (AL)は、ラベルなしデータのプールからアノテーションのためのデータを反復的に選択する手法である。
以前のALアプローチは、イテレーションごとにゼロからトレーニングされるタスク固有のモデルに制限されている。
BALM;Bayesian Active Learning with pretrained language modelを紹介します。
論文 参考訳(メタデータ) (2021-04-16T19:07:31Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。