論文の概要: Sequential Targeting: an incremental learning approach for data
imbalance in text classification
- arxiv url: http://arxiv.org/abs/2011.10216v2
- Date: Mon, 23 Nov 2020 02:33:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 05:32:00.050987
- Title: Sequential Targeting: an incremental learning approach for data
imbalance in text classification
- Title(参考訳): 逐次的ターゲット:テキスト分類におけるデータ不均衡の漸進的学習アプローチ
- Authors: Joel Jang, Yoonjeon Kim, Kyoungho Choi, Sungho Suh
- Abstract要約: 不均衡なデータセットを扱う方法は、分散スキューを軽減するために不可欠である。
本稿では,提案手法の有効性によらず,新たなトレーニング手法であるシーケンスターゲティング(ST)を提案する。
シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 7.455546102930911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification tasks require a balanced distribution of data to ensure the
learner to be trained to generalize over all classes. In real-world datasets,
however, the number of instances vary substantially among classes. This
typically leads to a learner that promotes bias towards the majority group due
to its dominating property. Therefore, methods to handle imbalanced datasets
are crucial for alleviating distributional skews and fully utilizing the
under-represented data, especially in text classification. While addressing the
imbalance in text data, most methods utilize sampling methods on the numerical
representation of the data, which limits its efficiency on how effective the
representation is. We propose a novel training method, Sequential
Targeting(ST), independent of the effectiveness of the representation method,
which enforces an incremental learning setting by splitting the data into
mutually exclusive subsets and training the learner adaptively. To address
problems that arise within incremental learning, we apply elastic weight
consolidation. We demonstrate the effectiveness of our method through
experiments on simulated benchmark datasets (IMDB) and data collected from
NAVER.
- Abstract(参考訳): 分類タスクは、学習者がすべてのクラスを一般化するように訓練されることを保証するために、データのバランスのとれた分散を必要とする。
しかし、現実世界のデータセットでは、インスタンスの数はクラスによって大きく異なる。
これは典型的には、その支配性のために多数派に対する偏見を促進する学習者につながる。
したがって、不均衡データセットを扱う方法は、特にテキスト分類において、分散スキューを緩和し、非表現データを完全に活用するために重要である。
テキストデータの不均衡に対処しながら、ほとんどの手法はデータの数値表現のサンプリング手法を使用し、その効率は表現の有効性に制限される。
本稿では,データを相互に排他的なサブセットに分割し,学習者を適応的に訓練することで,段階的な学習設定を強制する,表現法の有効性によらず,新たな学習方法であるシーケンスターゲティング(ST)を提案する。
インクリメンタル学習で生じる問題に対処するために,弾性重み統合を適用する。
シミュレーションベンチマークデータセット(IMDB)とNAVERから収集したデータを用いて,本手法の有効性を示す。
関連論文リスト
- Multiply Robust Estimation for Local Distribution Shifts with Multiple Domains [9.429772474335122]
我々は、全人口の複数のセグメントにまたがってデータ分布が変化するシナリオに焦点を当てる。
そこで本研究では,各セグメントのモデル性能を改善するために,二段階多重ロバスト推定法を提案する。
本手法は,市販の機械学習モデルを用いて実装されるように設計されている。
論文 参考訳(メタデータ) (2024-02-21T22:01:10Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Semi-Supervised Image Captioning by Adversarially Propagating Labeled
Data [95.0476489266988]
本稿では、画像キャプションモデルの一般化を改善するための、新しいデータ効率半教師付きフレームワークを提案する。
提案手法は,キャプタにペアデータから学習し,段階的に未ペアデータの関連付けを行うよう訓練する。
1)画像ベースと(2)高密度領域ベースキャプションデータセットの両方を総合的かつ包括的な実験結果とし,それに続いて,少ないペアリングデータセットの包括的分析を行った。
論文 参考訳(メタデータ) (2023-01-26T15:25:43Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep
Learning [55.733193075728096]
現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。
サンプル再重み付け手法は、このデータバイアス問題を緩和するために一般的に使用されている。
本稿では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。
論文 参考訳(メタデータ) (2022-02-11T13:49:51Z) - Minority Class Oriented Active Learning for Imbalanced Datasets [6.009262446889319]
本研究では,不均衡なデータセットを対象とした新しいアクティブ学習手法を提案する。
これは、ラベル付きサブセットの不均衡を減らすために、マイノリティクラスにある可能性が高いサンプルを好む。
また、アクティブラーニングのための2つのトレーニングスキームを比較した。
論文 参考訳(メタデータ) (2022-02-01T13:13:41Z) - Class-Balanced Active Learning for Image Classification [29.5211685759702]
本稿では,クラスバランスを考慮に入れた汎用最適化フレームワークを提案する。
3つのデータセットの結果から,本手法は汎用的(既存のほとんどのアクティブラーニングアルゴリズムと組み合わせることができる)であり,情報と代表に基づくアクティブラーニング手法の性能向上に効果的に適用可能であることが示された。
論文 参考訳(メタデータ) (2021-10-09T11:30:26Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。