論文の概要: Estimating Class Separability of Datasets Using Persistent Homology with
Application to LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2305.15016v3
- Date: Wed, 25 Oct 2023 17:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 20:41:31.742136
- Title: Estimating Class Separability of Datasets Using Persistent Homology with
Application to LLM Fine-Tuning
- Title(参考訳): 永続ホモロジーを用いたデータセットのクラス分離性の推定とLLMファインチューニングへの応用
- Authors: Najah Ghalyan, Kostis Gourgoulias, Yash Satsangi, Sean Moran, Maxime
Labonne, Joseph Sabelja
- Abstract要約: 本稿では,テキストの文変換器埋め込みのトポロジ特性を検査することにより,ラベルなしテキストデータセットのクラス分離性を推定する手法を提案する。
実験では、バランスの取れたシナリオとバランスの取れないシナリオで、バイナリとマルチクラスの両方のケースで実施された。
- 参考スコア(独自算出の注目度): 2.114624171792667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper proposes a method to estimate the class separability of an
unlabeled text dataset by inspecting the topological characteristics of
sentence-transformer embeddings of the text. Experiments conducted involve both
binary and multi-class cases, with balanced and imbalanced scenarios. The
results demonstrate a clear correlation and a better consistency between the
proposed method and other separability and classification metrics, such as
Thornton's method and the AUC score of a logistic regression classifier, as
well as unsupervised methods. Finally, we empirically show that the proposed
method can be part of a stopping criterion for fine-tuning language-model
classifiers. By monitoring the class separability of the embedding space after
each training iteration, we can detect when the training process stops
improving the separability of the embeddings without using additional labels.
- Abstract(参考訳): 本稿では,テキストの文変換器埋め込みのトポロジ特性を検査することにより,ラベルなしテキストデータセットのクラス分離性を推定する手法を提案する。
実験は、バランスの取れたシナリオと不均衡なシナリオを持つ、バイナリケースとマルチクラスケースの両方を含む。
結果は,ロジスティック回帰分類器のソーントン法やAUCスコア,および教師なし手法など,提案手法と他の分離性および分類指標との明確な相関と整合性を示す。
最後に,提案手法が言語モデル分類器の停止基準の一部となることを実証的に示す。
各トレーニングイテレーション後の埋め込み空間のクラス分離性を監視することで、トレーニングプロセスが追加ラベルを使わずに埋め込みの分離性を改善するのをやめたことを検出できる。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - The Selected-completely-at-random Complementary Label is a Practical
Weak Supervision for Multi-class Classification [71.42360409393201]
補完ラベル学習は、弱教師付き学習問題である。
均一分布仮定に依存しない一貫した手法を提案する。
相補的なラベル学習は、負のラベル付きバイナリ分類問題の集合として表現できる。
論文 参考訳(メタデータ) (2023-11-27T02:59:17Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Retrieval-Augmented Classification with Decoupled Representation [31.662843145399044]
そこで本研究では,KNN(Kk$-nearest-neighbor)に基づく拡張分類検索手法を提案する。
分類と検索の共有表現がパフォーマンスを損なうことや,トレーニングの不安定化につながることが判明した。
本手法は,幅広い分類データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-03-23T06:33:06Z) - Semi-supervised Predictive Clustering Trees for (Hierarchical)
Multi-label Classification [5.934942414245222]
本稿では,予測クラスタリング木の半教師付き学習に基づく階層型マルチラベル分類手法を提案する。
また,この手法をアンサンブル学習に拡張し,ランダムな森林アプローチに基づく手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T12:49:00Z) - Self-Certifying Classification by Linearized Deep Assignment [65.0100925582087]
そこで我々は,PAC-Bayesリスク認定パラダイム内で,グラフ上のメトリックデータを分類するための新しい深層予測器のクラスを提案する。
PAC-Bayesの最近の文献とデータに依存した先行研究に基づいて、この手法は仮説空間上の後続分布の学習を可能にする。
論文 参考訳(メタデータ) (2022-01-26T19:59:14Z) - Unsupervised feature selection via self-paced learning and low-redundant
regularization [6.083524716031565]
自己評価学習とサブスペース学習の枠組みを統合することにより,教師なしの特徴選択を提案する。
この手法の収束性は理論的および実験的に証明される。
実験の結果,提案手法はクラスタリング法の性能を向上し,他の比較アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-12-14T08:28:19Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Two-stage Training for Learning from Label Proportions [18.78148397471913]
ラベルパーセンテージ(LLP)からの学習は、グループ化されたトレーニングデータにおいてラベルパーセンテージを持つインスタンスレベルの分類器を学習することを目的としている。
ラベルノイズをさらに低減するために,混合戦略と対称クロスエントロピーを導入する。
我々のフレームワークはモデルに依存しず、広範な実験において魅力的なパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2021-05-22T03:55:35Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。