論文の概要: An Unsupervised Method for Estimating Class Separability of Datasets
with Application to LLMs Fine-Tuning
- arxiv url: http://arxiv.org/abs/2305.15016v1
- Date: Wed, 24 May 2023 10:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:44:49.254108
- Title: An Unsupervised Method for Estimating Class Separability of Datasets
with Application to LLMs Fine-Tuning
- Title(参考訳): 教師なしによるデータセットのクラス分離可能性推定法とllms微調整への応用
- Authors: Najah Ghalyan, Kostis Gourgoulias, Yash Satsangi, Sean Moran, Maxime
Labonne, Joseph Sabelja
- Abstract要約: 本稿ではラベルを必要とせずにデータのクラス分離性を推定する教師なし手法を提案する。
本稿では,いくつかのデータセットについて実験を行い,提案手法により推定したクラス分離性の間に明確な相関関係と整合性を示す。
提案手法は,言語モデルの微調整をいつ停止するか,あるいは継続するか,という決定をラベルを使わずに,効果的に支援することができる。
- 参考スコア(独自算出の注目度): 2.1530718840070784
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper proposes an unsupervised method that leverages topological
characteristics of data manifolds to estimate class separability of the data
without requiring labels. Experiments conducted in this paper on several
datasets demonstrate a clear correlation and consistency between the class
separability estimated by the proposed method with supervised metrics like
Fisher Discriminant Ratio~(FDR) and cross-validation of a classifier, which
both require labels. This can enable implementing learning paradigms aimed at
learning from both labeled and unlabeled data, like semi-supervised and
transductive learning. This would be particularly useful when we have limited
labeled data and a relatively large unlabeled dataset that can be used to
enhance the learning process. The proposed method is implemented for language
model fine-tuning with automated stopping criterion by monitoring class
separability of the embedding-space manifold in an unsupervised setting. The
proposed methodology has been first validated on synthetic data, where the
results show a clear consistency between class separability estimated by the
proposed method and class separability computed by FDR. The method has been
also implemented on both public and internal data. The results show that the
proposed method can effectively aid -- without the need for labels -- a
decision on when to stop or continue the fine-tuning of a language model and
which fine-tuning iteration is expected to achieve a maximum classification
performance through quantification of the class separability of the embedding
manifold.
- Abstract(参考訳): 本稿では,データ多様体の位相特性を利用してラベルを必要とせずにデータのクラス分離性を推定する教師なし手法を提案する。
提案手法により推定されたクラス分離性と,FDR(Fisher Discriminant Ratio)などの教師付き指標とラベルを必要とする分類器の相互検証との間には,明確な相関関係と整合性を示す。
これにより、半教師付き学習やトランスダクティブ学習のようなラベル付きデータとラベルなしデータの両方から学習することを目的とした学習パラダイムの実装が可能になる。
これは、ラベル付きデータと学習プロセスを強化するために使用できる比較的大きなラベル付きデータセットがある場合に特に有用です。
組込み空間多様体のクラス分離性を教師なし設定で監視することにより,自動停止基準付き言語モデルの微調整を実現する。
提案手法は,FDRによって計算されたクラス分離性とクラス分離性との間に明確な整合性を示す合成データ上で検証された。
この手法は、パブリックデータと内部データの両方に実装されている。
その結果、提案手法は、ラベルを必要とせずに、言語モデルの微調整をいつ停止または継続するかの決定を効果的に支援することができ、また、埋め込み多様体のクラス分離可能性の定量化により、最大分類性能を達成することが期待される。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - The Selected-completely-at-random Complementary Label is a Practical
Weak Supervision for Multi-class Classification [71.42360409393201]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫した手法を提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Retrieval-Augmented Classification with Decoupled Representation [31.662843145399044]
そこで本研究では,KNN(Kk$-nearest-neighbor)に基づく拡張分類検索手法を提案する。
分類と検索の共有表現がパフォーマンスを損なうことや,トレーニングの不安定化につながることが判明した。
本手法は,幅広い分類データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-23T06:33:06Z) - Semi-supervised Predictive Clustering Trees for (Hierarchical) Multi-label Classification [2.706328351174805]
本稿では,予測クラスタリング木の半教師付き学習に基づく階層型マルチラベル分類手法を提案する。
また,この手法をアンサンブル学習に拡張し,ランダムな森林アプローチに基づく手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T12:49:00Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Unsupervised feature selection via self-paced learning and low-redundant
regularization [6.083524716031565]
自己評価学習とサブスペース学習の枠組みを統合することにより,教師なしの特徴選択を提案する。
この手法の収束性は理論的および実験的に証明される。
実験の結果,提案手法はクラスタリング法の性能を向上し,他の比較アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-14T08:28:19Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Two-stage Training for Learning from Label Proportions [18.78148397471913]
ラベルパーセンテージ(LLP)からの学習は、グループ化されたトレーニングデータにおいてラベルパーセンテージを持つインスタンスレベルの分類器を学習することを目的としている。
ラベルノイズをさらに低減するために,混合戦略と対称クロスエントロピーを導入する。
我々のフレームワークはモデルに依存しず、広範な実験において魅力的なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2021-05-22T03:55:35Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。