論文の概要: A Survey of Text Classification Under Class Distribution Shift
- arxiv url: http://arxiv.org/abs/2502.12965v1
- Date: Tue, 18 Feb 2025 15:46:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:09:18.778361
- Title: A Survey of Text Classification Under Class Distribution Shift
- Title(参考訳): クラス分布シフトに基づくテキスト分類に関する調査
- Authors: Adriana Valentina Costache, Silviu Florin Gheorghe, Eduard Gabriel Poesina, Paul Irofti, Radu Tudor Ionescu,
- Abstract要約: 日々の実践では、テストデータの分布は時間とともに変化し、機械学習モデルの適用を妨げる。
分散シフトが自然に起こる分野の1つは、人々が議論すべき新しいトピックを見つけるため、テキスト分類である。
分散シフトの種類と対応する問題定式化を定義する制約に基づいて,本領域の手法を分割する。
- 参考スコア(独自算出の注目度): 20.204466949038284
- License:
- Abstract: The basic underlying assumption of machine learning (ML) models is that the training and test data are sampled from the same distribution. However, in daily practice, this assumption is often broken, i.e.~the distribution of the test data changes over time, which hinders the application of conventional ML models. One domain where the distribution shift naturally occurs is text classification, since people always find new topics to discuss. To this end, we survey research articles studying open-set text classification and related tasks. We divide the methods in this area based on the constraints that define the kind of distribution shift and the corresponding problem formulation, i.e.~learning with the Universum, zero-shot learning, and open-set learning. We next discuss the predominant mitigation approaches for each problem setup. Finally, we identify several future work directions, aiming to push the boundaries beyond the state of the art. Interestingly, we find that continual learning can solve many of the issues caused by the shifting class distribution. We maintain a list of relevant papers at https://github.com/Eduard6421/Open-Set-Survey.
- Abstract(参考訳): 機械学習(ML)モデルの基本的な前提は、トレーニングとテストデータが同じ分布からサンプリングされることである。
しかし、日々の実践では、この仮定はしばしば破られ、すなわち...時間とともにテストデータの分布が変化し、従来のMLモデルの適用が妨げられる。
分散シフトが自然に起こる分野の1つは、人々が議論すべき新しいトピックを見つけるため、テキスト分類である。
そこで本稿では,オープンセットテキスト分類とその関連課題について調査する。
本研究では,分散シフトの種類とそれに対応する問題定式化を定義する制約,すなわち大学での学習,ゼロショット学習,オープンセット学習に基づいて,この分野の手法を分割する。
次に、各問題設定に対する主な緩和アプローチについて論じる。
最後に、最先端技術を超えて境界を推し進めることを目的として、今後の作業方向を特定します。
興味深いことに、継続学習は、シフトするクラス分布に起因する多くの問題を解決することができる。
関連論文のリストはhttps://github.com/Eduard6421/Open-Set-Survey.comにある。
関連論文リスト
- Navigating Semantic Drift in Task-Agnostic Class-Incremental Learning [51.177789437682954]
クラスインクリメンタルラーニング(Class-incremental Learning, CIL)は、モデルが学習したクラスの知識を維持しつつ、新しいクラスを逐次学習できるようにすることを目的とする。
柔軟性と安定性のバランスをとることは、特にタスクIDが不明な場合には、依然として大きな課題である。
本研究では,平均シフト補償と共分散校正を組み合わせたセマンティックドリフト校正法を提案する。
論文 参考訳(メタデータ) (2025-02-11T13:57:30Z) - Fairness Hub Technical Briefs: Definition and Detection of Distribution Shift [0.5825410941577593]
分散シフトは機械学習タスクにおいて一般的な状況であり、モデルのトレーニングに使用されるデータは、モデルが現実世界に適用されるデータとは異なる。
本稿では,教育環境における分布変化の定義と検出に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-23T05:29:36Z) - COMET: Contrastive Mean Teacher for Online Source-Free Universal Domain Adaptation [3.5139431332194198]
現実世界のアプリケーションでは、トレーニングからテストデータへのドメインシフトが頻繁に発生します。
本稿では,このシナリオに合わせたコントラスト的平均教師(COMET)を紹介する。
COMETは最先端のパフォーマンスをもたらし、さまざまなシナリオで一貫性と堅牢性を示す。
論文 参考訳(メタデータ) (2024-01-31T10:47:25Z) - Adaptive Test-Time Personalization for Federated Learning [51.25437606915392]
テスト時パーソナライズド・フェデレーション・ラーニング(TTPFL)と呼ばれる新しい設定を導入する。
TTPFLでは、クライアントはテスト期間中にラベル付きデータに頼ることなく、教師なしの方法でグローバルモデルをローカルに適応する。
本稿では,ソースドメイン間の分散シフトから,モデル内の各モジュールの適応率を適応的に学習する ATP という新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-28T20:42:47Z) - Explanation Shift: How Did the Distribution Shift Impact the Model? [23.403838118256907]
本研究では,分布変化による説明特性の変化について検討した。
我々は、合成例と実世界のデータセットを用いて、異なる種類の分布シフトを分析する。
我々は、実験を再現するために使用されるコードと同様に、オープンソースのPythonパッケージでメソッドをリリースします。
論文 参考訳(メタデータ) (2023-03-14T17:13:01Z) - PatchMix Augmentation to Identify Causal Features in Few-shot Learning [55.64873998196191]
少ないショット学習は、十分なカテゴリをラベル付けしたデータに基づいて学習した知識を、少ない既知の情報を持つ新しいカテゴリに転送することを目的としている。
我々はPatchMixと呼ばれる新しいデータ拡張戦略を提案し、この急激な依存関係を壊すことができる。
このような拡張メカニズムが,既存のメカニズムと異なり,因果的特徴を識別可能であることを示す。
論文 参考訳(メタデータ) (2022-11-29T08:41:29Z) - Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time [69.77704012415845]
時間的シフトは、現実世界にデプロイされた機械学習モデルのパフォーマンスを著しく低下させる可能性がある。
ドメイン一般化、連続学習、自己教師付き学習、アンサンブル学習の手法を含む13の先行手法をベンチマークする。
いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。
論文 参考訳(メタデータ) (2022-11-25T17:07:53Z) - Mixture of basis for interpretable continual learning with distribution
shifts [1.6114012813668934]
データ分散のシフトを伴う環境での継続的な学習は、いくつかの現実世界のアプリケーションでは難しい問題である。
本稿では,この問題設定に対処するために,ベイシモデル(MoB)の混合方式を提案する。
論文 参考訳(メタデータ) (2022-01-05T22:53:15Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z) - Out of Distribution Generalization in Machine Learning [0.0]
モデルがトレーニングされたデータとわずかに異なるデータでテストされる日常の状況では、MLアルゴリズムは壮大に失敗する可能性があります。
この研究は、この問題を形式的に定義し、データで妥当な仮定セットを定義しようとしています。
次に,分布問題,それらの仮定のある種のクラスに注目し,これらの仮定から従う単純なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-03-03T20:35:19Z) - WILDS: A Benchmark of in-the-Wild Distribution Shifts [157.53410583509924]
分散シフトは、ワイルドにデプロイされた機械学習システムの精度を実質的に低下させることができる。
分散シフトの多様な範囲を反映した8つのベンチマークデータセットのキュレーションコレクションであるWILDSを紹介します。
本研究は, 標準訓練の結果, 分布性能よりも, 分布域外性能が有意に低下することを示す。
論文 参考訳(メタデータ) (2020-12-14T11:14:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。