論文の概要: Tradeoffs in Resampling and Filtering for Imbalanced Classification
- arxiv url: http://arxiv.org/abs/2209.00127v1
- Date: Wed, 31 Aug 2022 21:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:44:42.069549
- Title: Tradeoffs in Resampling and Filtering for Imbalanced Classification
- Title(参考訳): 不均衡分類のためのサンプリングとフィルタリングのトレードオフ
- Authors: Ryan Muther, David Smith
- Abstract要約: トレーニングデータを選択する異なる方法が、効率と効率のトレードオフをもたらすことを示す。
また、高度に不均衡なケースでは、ファーストパス検索モデルを用いたテストデータのフィルタリングが、トレーニングデータを選択するのと同じくらい、モデルの性能にとって重要であることも確認した。
- 参考スコア(独自算出の注目度): 2.3605348648054454
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Imbalanced classification problems are extremely common in natural language
processing and are solved using a variety of resampling and filtering
techniques, which often involve making decisions on how to select training data
or decide which test examples should be labeled by the model. We examine the
tradeoffs in model performance involved in choices of training sample and
filter training and test data in heavily imbalanced token classification task
and examine the relationship between the magnitude of these tradeoffs and the
base rate of the phenomenon of interest. In experiments on sequence tagging to
detect rare phenomena in English and Arabic texts, we find that different
methods of selecting training data bring tradeoffs in effectiveness and
efficiency. We also see that in highly imbalanced cases, filtering test data
using first-pass retrieval models is as important for model performance as
selecting training data. The base rate of a rare positive class has a clear
effect on the magnitude of the changes in performance caused by the selection
of training or test data. As the base rate increases, the differences brought
about by those choices decreases.
- Abstract(参考訳): 不均衡な分類問題は自然言語処理において非常に一般的であり、様々な再サンプリングとフィルタリング技術を用いて解決される。
トークン分類タスクにおけるサンプルおよびフィルタの訓練とテストデータの選択に関わるモデル性能のトレードオフを調べ,これらのトレードオフの大きさと関心現象のベースレートとの関係について検討した。
英語とアラビア語のテキストでまれな現象を検出するためのシーケンスタグ付けの実験では、トレーニングデータを選択する異なる方法が、効果と効率のトレードオフをもたらすことが判明した。
また,高度にバランスの取れないケースでは,第1パス検索モデルを用いたテストデータのフィルタリングが,トレーニングデータの選択と同じくらいモデル性能に重要であることも確認した。
稀なポジティブクラスのベースレートは、トレーニングやテストデータの選択によって生じるパフォーマンスの変化の大きさに明らかな影響を及ぼす。
ベースレートが上昇すると、それらの選択によってもたらされる差は減少する。
関連論文リスト
- ScalingFilter: Assessing Data Quality through Inverse Utilization of Scaling Laws [67.59263833387536]
ScalingFilterは、同じデータでトレーニングされた2つの言語モデル間の複雑さの違いに基づいて、テキスト品質を評価する新しいアプローチである。
品質フィルタリングによってもたらされるバイアスを評価するために,意味表現にテキスト埋め込みモデルを利用する指標である意味多様性を導入する。
論文 参考訳(メタデータ) (2024-08-15T17:59:30Z) - The Mirrored Influence Hypothesis: Efficient Data Influence Estimation by Harnessing Forward Passes [30.30769701138665]
我々は、訓練データとテストデータの間の相互影響を浮き彫りにして、ミラーレッド影響仮説を導入し、探求する。
具体的には、テスト予測に対するトレーニングデータの影響を評価することは、等価だが逆問題として再定義することができることを示唆している。
トレーニングポイント毎に前方パスとペアを組むことで,特定のテストサンプルの勾配を計算し,トレーニングデータの影響を推定する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-14T03:43:05Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Outlier Detection as Instance Selection Method for Feature Selection in
Time Series Classification [0.0]
まれなインスタンスのための機能選択メソッドに提供されるフィルタインスタンス。
一部のデータセットでは、結果としてパフォーマンスが向上したのはわずか数パーセントだった。
他のデータセットでは、最大16%のパフォーマンス向上を実現しました。
論文 参考訳(メタデータ) (2021-11-16T14:44:33Z) - An Empirical Study on the Joint Impact of Feature Selection and Data
Resampling on Imbalance Classification [4.506770920842088]
本研究では,不均衡分類のための特徴選択とデータ再サンプリングの相乗性に着目した。
9つの特徴選択手法、クラス不均衡学習のための6つの再サンプリング手法、および3つのよく知られた分類アルゴリズムを用いて、52の公開データセットに対して多数の実験を行った。
論文 参考訳(メタデータ) (2021-09-01T06:01:51Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Message Passing Adaptive Resonance Theory for Online Active
Semi-supervised Learning [30.19936050747407]
オンラインのアクティブ半教師あり学習のためのメッセージパッシング適応共振理論(MPART)を提案する。
MPARTはラベルのないデータのクラスを推論し、トポロジグラフ上のノード間のメッセージパッシングを通じて情報的および代表的サンプルを選択する。
我々は,MPARTがオンラインのアクティブ学習環境において,競合モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-02T14:14:42Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。