論文の概要: Building for Tomorrow: Assessing the Temporal Persistence of Text
Classifiers
- arxiv url: http://arxiv.org/abs/2205.05435v1
- Date: Wed, 11 May 2022 12:21:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:17:09.991592
- Title: Building for Tomorrow: Assessing the Temporal Persistence of Text
Classifiers
- Title(参考訳): building for tomorrow: テキスト分類器の時間的持続性の評価
- Authors: Rabab Alkhalifa, Elena Kochkina, Arkaitz Zubiaga
- Abstract要約: テキスト分類モデルの性能は、分類すべき新しいデータがトレーニングに使用されるデータからより遠い時間に低下する可能性がある。
これにより、時間とともに持続することを目的としたテキスト分類モデルの設計に関する重要な研究上の疑問が提起される。
6~19年間にわたる3つのデータセットの縦断分類実験を行った。
- 参考スコア(独自算出の注目度): 18.367109894193486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance of text classification models can drop over time when new data to
be classified is more distant in time from the data used for training, due to
naturally occurring changes in the data, such as vocabulary change. A solution
to this is to continually label new data to retrain the model, which is,
however, often unaffordable to be performed regularly due to its associated
cost. This raises important research questions on the design of text
classification models that are intended to persist over time: do all embedding
models and classification algorithms exhibit similar performance drops over
time and is the performance drop more prominent in some tasks or datasets than
others? With the aim of answering these research questions, we perform
longitudinal classification experiments on three datasets spanning between 6
and 19 years. Findings from these experiments inform the design of text
classification models with the aim of preserving performance over time,
discussing the extent to which one can rely on classification models trained
from temporally distant training data, as well as how the characteristics of
the dataset impact this.
- Abstract(参考訳): テキスト分類モデルの性能は、語彙変化のような自然に発生するデータの変化によって、訓練に使用されるデータよりも、分類される新しいデータが時間とともに低下する可能性がある。
これに対する解決策は、モデルを再トレーニングするために、新しいデータを継続的にラベル付けすることである。
すべての埋め込みモデルと分類アルゴリズムは、時間とともに同様のパフォーマンス低下を示し、いくつかのタスクやデータセットにおいて、パフォーマンス低下は他のタスクよりも顕著か?
これらの課題に答えるために,6~19年にわたる3つのデータセットの縦断分類実験を行った。
これらの実験から得られた発見は、時間とともにパフォーマンスを維持することを目的として、テキスト分類モデルの設計を通知し、時間的に離れたトレーニングデータからトレーニングされた分類モデルにどの程度依存できるか、データセットの特徴がこれに与える影響を議論する。
関連論文リスト
- VIBE: Topic-Driven Temporal Adaptation for Twitter Classification [9.476760540618903]
我々は、過去のデータに基づいてトレーニングされたモデルが将来テストされる時間適応について研究する。
我々のモデルは、わずか3%のデータしか持たないが、従来の最先端の継続的な事前学習方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-10-16T08:53:57Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Self-supervised Activity Representation Learning with Incremental Data:
An Empirical Study [7.782045150068569]
本研究では,時系列分類タスクにおける自己教師付き表現学習モデルの利用が及ぼす影響について検討する。
4つの公開データセットにおいて,ラベル付きデータのサイズ,分布,ソースが最終分類性能に与える影響を解析した。
論文 参考訳(メタデータ) (2023-05-01T01:39:55Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - Opinions are Made to be Changed: Temporally Adaptive Stance
Classification [9.061088449712859]
大規模で縦長なスタンスデータセットを2つ導入する。
スタンス分類器の性能持続性を時間とともに評価し、トレーニングデータとテストデータの間の時間的ギャップが増大するにつれて、どのように崩壊するかを示す。
組込み適応に対するいくつかのアプローチを提案し比較し、インクリメンタル・テンポラル・アライメント(ITA)モデルが時間の経過とともに性能低下を減少させる最良の結果をもたらすことを見出した。
論文 参考訳(メタデータ) (2021-08-27T19:47:31Z) - Improving Zero and Few-Shot Abstractive Summarization with Intermediate
Fine-tuning and Data Augmentation [101.26235068460551]
大規模テキストコーパス上での自己教師対象による事前学習モデルは、英語テキスト要約タスクにおける最先端のパフォーマンスを達成する。
モデルは通常、数十万のデータポイントで微調整されるが、これは新しいニッチなドメインに要約を適用する際に、実現不可能な要件である。
我々は、教師なし、データセット固有の方法で要約のための訓練済みモデルを微調整するための、WikiTransferと呼ばれる新しい一般化可能な手法を紹介した。
論文 参考訳(メタデータ) (2020-10-24T08:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。