論文の概要: Large Language Models for Imbalanced Classification: Diversity makes the difference
- arxiv url: http://arxiv.org/abs/2510.09783v1
- Date: Fri, 10 Oct 2025 18:45:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.624022
- Title: Large Language Models for Imbalanced Classification: Diversity makes the difference
- Title(参考訳): 不均衡分類のための大規模言語モデル:多様性は違いを生み出す
- Authors: Dang Nguyen, Sunil Gupta, Kien Do, Thin Nguyen, Taylor Braund, Alexis Whitton, Svetha Venkatesh,
- Abstract要約: 本稿では,多様性を高めるために,新しい大規模言語モデル (LLM) を用いたオーバーサンプリング手法を提案する。
まず,少数なラベルと特徴の両方に合成サンプル生成を条件付けるサンプリング戦略を導入する。
第2に、微調整事前学習LLMのための新しい置換戦略を開発する。
- 参考スコア(独自算出の注目度): 40.03315488727788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Oversampling is one of the most widely used approaches for addressing imbalanced classification. The core idea is to generate additional minority samples to rebalance the dataset. Most existing methods, such as SMOTE, require converting categorical variables into numerical vectors, which often leads to information loss. Recently, large language model (LLM)-based methods have been introduced to overcome this limitation. However, current LLM-based approaches typically generate minority samples with limited diversity, reducing robustness and generalizability in downstream classification tasks. To address this gap, we propose a novel LLM-based oversampling method designed to enhance diversity. First, we introduce a sampling strategy that conditions synthetic sample generation on both minority labels and features. Second, we develop a new permutation strategy for fine-tuning pre-trained LLMs. Third, we fine-tune the LLM not only on minority samples but also on interpolated samples to further enrich variability. Extensive experiments on 10 tabular datasets demonstrate that our method significantly outperforms eight SOTA baselines. The generated synthetic samples are both realistic and diverse. Moreover, we provide theoretical analysis through an entropy-based perspective, proving that our method encourages diversity in the generated samples.
- Abstract(参考訳): オーバーサンプリングは、不均衡な分類に対処する最も広く使われている手法の1つである。
中心となるアイデアは、データセットの再バランスのために、少数派のサンプルを生成することだ。
SMOTEのような既存の手法では、カテゴリ変数を数値ベクトルに変換する必要があり、しばしば情報損失につながる。
近年,この制限を克服するために,大規模言語モデル (LLM) ベースの手法が導入されている。
しかし、現在のLLMベースのアプローチは、典型的には多様性に制限のある少数サンプルを生成し、下流の分類タスクにおける堅牢性と一般化性を低下させる。
このギャップに対処するために,多様性を高めるために,LLMを用いた新しいオーバーサンプリング手法を提案する。
まず,少数なラベルと特徴の両方に合成サンプル生成を条件付けるサンプリング戦略を導入する。
第2に、微調整事前学習LLMのための新しい置換戦略を開発する。
第3に, LLMをマイノリティ標本だけでなく補間試料にも微調整し, 多様性をさらに高めている。
10個の表付きデータセットに対する大規模な実験により、我々の手法は8つのSOTAベースラインを著しく上回ることを示した。
生成した合成サンプルは、現実的で多様である。
さらに,エントロピーの観点から理論解析を行い,本手法が生成標本の多様性を促進することを証明した。
関連論文リスト
- Sampling Imbalanced Data with Multi-objective Bilevel Optimization [1.6385815610837167]
2階級の分類問題は、多数派と少数派のデータポイントの間の不均衡によってしばしば特徴づけられる。
合成オーバーサンプリングと多数アンサンプの両方をガイドする新しい多目的二段階最適化フレームワークMOODSを紹介する。
また,モデル性能に対するサンプリング手法の有効性を定量化する検証指標を導入する。
論文 参考訳(メタデータ) (2025-06-12T21:31:08Z) - REAL Sampling: Boosting Factuality and Diversity of Open-Ended Generation via Asymptotic Entropy [93.8400683020273]
大規模言語モデル(LLM)の復号法は通常、事実性の確保と多様性の維持のトレードオフに苦慮する。
核サンプリングにおける事実性および多様性を向上させる復号法であるREALサンプリングを提案する。
論文 参考訳(メタデータ) (2024-06-11T21:44:49Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Generative Oversampling for Imbalanced Data via Majority-Guided VAE [15.93867386081279]
本稿では,多数派の指導のもと,新たなマイノリティサンプルを生成する,Majority-Guided VAE(MGVAE)と呼ばれる新しいオーバーサンプリングモデルを提案する。
このようにして、新しく生成されたマイノリティサンプルは、大多数のサンプルの多様性と豊かさを継承することができ、下流タスクにおける過度な適合を軽減できる。
論文 参考訳(メタデータ) (2023-02-14T06:35:23Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Imbalanced Classification via a Tabular Translation GAN [4.864819846886142]
本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。
提案手法は, 再加重法やオーバーサンプリング法と比較して, 平均精度を向上することを示す。
論文 参考訳(メタデータ) (2022-04-19T06:02:53Z) - A Novel Adaptive Minority Oversampling Technique for Improved
Classification in Data Imbalanced Scenarios [23.257891827728827]
異なるクラスに属するトレーニングサンプルの割合の不均衡は、しばしば従来の分類器の性能低下を引き起こす。
不均衡なデータに対処する新しい3ステップ手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T09:58:02Z) - Conditional Wasserstein GAN-based Oversampling of Tabular Data for
Imbalanced Learning [10.051309746913512]
本稿では,条件付きWasserstein GANに基づくオーバーサンプリング手法を提案する。
実世界の7つのデータセット上で,標準的なオーバーサンプリング手法と不均衡なベースラインに対して,本手法をベンチマークした。
論文 参考訳(メタデータ) (2020-08-20T20:33:56Z) - M2m: Imbalanced Classification via Major-to-minor Translation [79.09018382489506]
ほとんどの実世界のシナリオでは、ラベル付きトレーニングデータセットは非常にクラス不均衡であり、ディープニューラルネットワークは、バランスの取れたテスト基準への一般化に苦しむ。
本稿では,より頻度の低いクラスを,より頻度の低いクラスからのサンプルを翻訳することによって,この問題を緩和する新しい方法を提案する。
提案手法は,従来の再サンプリング法や再重み付け法と比較して,マイノリティクラスの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-04-01T13:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。