論文の概要: Extrapolated Markov Chain Oversampling Method for Imbalanced Text Classification
- arxiv url: http://arxiv.org/abs/2509.02332v1
- Date: Tue, 02 Sep 2025 14:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.051142
- Title: Extrapolated Markov Chain Oversampling Method for Imbalanced Text Classification
- Title(参考訳): 不均衡テキスト分類のためのマルコフ連鎖オーバーサンプリング法
- Authors: Aleksi Avela, Pauliina Ilmonen,
- Abstract要約: 実生活(テキスト)分類タスクでは、観察と誤分類コストはクラス間で不均一に分配されることが多い。
本稿では,マルコフ連鎖に基づくテキストオーバーサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text classification is the task of automatically assigning text documents correct labels from a predefined set of categories. In real-life (text) classification tasks, observations and misclassification costs are often unevenly distributed between the classes - known as the problem of imbalanced data. Synthetic oversampling is a popular approach to imbalanced classification. The idea is to generate synthetic observations in the minority class to balance the classes in the training set. Many general-purpose oversampling methods can be applied to text data; however, imbalanced text data poses a number of distinctive difficulties that stem from the unique nature of text compared to other domains. One such factor is that when the sample size of text increases, the sample vocabulary (i.e., feature space) is likely to grow as well. We introduce a novel Markov chain based text oversampling method. The transition probabilities are estimated from the minority class but also partly from the majority class, thus allowing the minority feature space to expand in oversampling. We evaluate our approach against prominent oversampling methods and show that our approach is able to produce highly competitive results against the other methods in several real data examples, especially when the imbalance is severe.
- Abstract(参考訳): テキスト分類は、予め定義されたカテゴリの集合からテキスト文書の正しいラベルを自動的に割り当てるタスクである。
実生活(テキスト)の分類タスクでは、観測と誤分類コストは、不均衡なデータの問題として知られるクラス間で不均一に分散されることが多い。
合成オーバーサンプリングは、不均衡な分類に対する一般的なアプローチである。
マイノリティクラスで合成観察を生成して、トレーニングセット内のクラスをバランスさせることが目的である。
多くの汎用的なオーバーサンプリング手法がテキストデータに適用できるが、不均衡なテキストデータは、他のドメインと比較して、テキストのユニークな性質に起因する多くの特異な困難を生じさせる。
そのような要因の1つは、テキストのサンプルサイズが大きくなると、サンプル語彙(つまり、特徴空間)も増加することである。
本稿では,マルコフ連鎖に基づくテキストオーバーサンプリング手法を提案する。
遷移確率は少数層から推定されるが、一部は多数層から推定されるため、少数民族の特徴空間はオーバーサンプリングで拡大する。
我々は,本手法によるオーバーサンプリング手法に対するアプローチを評価し,特に不均衡が深刻である場合,本手法が他の手法に対して高い競争力を発揮することを示す。
関連論文リスト
- Adaptive Cluster-Based Synthetic Minority Oversampling Technique for Traffic Mode Choice Prediction with Imbalanced Dataset [0.0]
密度に基づく空間クラスタリングは少数クラスに適用され、サブグループを特定する。
各サブグループのクラスは、それぞれのローカルクラスタのデータポイントと最大の多数派との比率に応じてオーバーサンプリングされる。
ランダムフォレストや極度の勾配向上といった機械学習モデルと組み合わせて使用すると、このオーバーサンプリング法はマイノリティクラスのF1スコアを著しく高める。
論文 参考訳(メタデータ) (2025-04-13T08:58:31Z) - Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning [59.44422468242455]
そこで我々はShrinkMatchと呼ばれる新しい手法を提案し、不確実なサンプルを学習する。
それぞれの不確実なサンプルに対して、元の Top-1 クラスを単に含むスランク類空間を適応的に求める。
次に、スランク空間における強と弱に強化された2つのサンプル間の整合正則化を課し、識別的表現を試みます。
論文 参考訳(メタデータ) (2023-08-13T14:05:24Z) - Boosting Few-Shot Text Classification via Distribution Estimation [38.99459686893034]
そこで本稿では,未ラベルの問合せサンプルを用いて,新しいクラスの分布を推定する,単純かつ効果的な2つの手法を提案する。
具体的には、まずクラスまたはサンプルをガウス分布に従って仮定し、元のサポートセットと最も近いクエリサンプルを使用する。
そして,推定分布から抽出したラベル付きサンプルを増量し,分類モデルの訓練に十分な監督力を与える。
論文 参考訳(メタデータ) (2023-03-26T05:58:39Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Stop Oversampling for Class Imbalance Learning: A Critical Review [0.9208007322096533]
オーバーサンプリングは、不均衡なデータセットから学ぶことの難しさを克服するために採用されている。
オーバーサンプリングアプローチの根本的な難しさは、実生個体数を考えると、合成標本が真のマイノリティクラスに属していないことである。
我々は,多数のサンプルを隠蔽し,オーバーサンプリングプロセスによって生成されたものと比較し,新しいオーバーサンプリング評価システムを開発した。
論文 参考訳(メタデータ) (2022-02-04T15:11:11Z) - Does Adversarial Oversampling Help us? [10.210871872870737]
本稿では,データセットのクラス不均衡を処理するために,3人のプレイヤーによるゲームベースのエンドツーエンド手法を提案する。
本稿では,敵対的マイノリティ・オーバーサンプリングではなく,敵対的オーバーサンプリング (AO) とデータ空間・オーバーサンプリング (DO) のアプローチを提案する。
提案手法の有効性を高次元・高不均衡・大規模マルチクラスデータセットを用いて検証した。
論文 参考訳(メタデータ) (2021-08-20T05:43:17Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。