論文の概要: Estimating Class Separability of Datasets Using Persistent Homology with
Application to LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2305.15016v3
- Date: Wed, 25 Oct 2023 17:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 20:41:31.742136
- Title: Estimating Class Separability of Datasets Using Persistent Homology with
Application to LLM Fine-Tuning
- Title(参考訳): 永続ホモロジーを用いたデータセットのクラス分離性の推定とLLMファインチューニングへの応用
- Authors: Najah Ghalyan, Kostis Gourgoulias, Yash Satsangi, Sean Moran, Maxime
Labonne, Joseph Sabelja
- Abstract要約: 本稿では,テキストの文変換器埋め込みのトポロジ特性を検査することにより,ラベルなしテキストデータセットのクラス分離性を推定する手法を提案する。
実験では、バランスの取れたシナリオとバランスの取れないシナリオで、バイナリとマルチクラスの両方のケースで実施された。
- 参考スコア(独自算出の注目度): 2.114624171792667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper proposes a method to estimate the class separability of an
unlabeled text dataset by inspecting the topological characteristics of
sentence-transformer embeddings of the text. Experiments conducted involve both
binary and multi-class cases, with balanced and imbalanced scenarios. The
results demonstrate a clear correlation and a better consistency between the
proposed method and other separability and classification metrics, such as
Thornton's method and the AUC score of a logistic regression classifier, as
well as unsupervised methods. Finally, we empirically show that the proposed
method can be part of a stopping criterion for fine-tuning language-model
classifiers. By monitoring the class separability of the embedding space after
each training iteration, we can detect when the training process stops
improving the separability of the embeddings without using additional labels.
- Abstract(参考訳): 本稿では,テキストの文変換器埋め込みのトポロジ特性を検査することにより,ラベルなしテキストデータセットのクラス分離性を推定する手法を提案する。
実験は、バランスの取れたシナリオと不均衡なシナリオを持つ、バイナリケースとマルチクラスケースの両方を含む。
結果は,ロジスティック回帰分類器のソーントン法やAUCスコア,および教師なし手法など,提案手法と他の分離性および分類指標との明確な相関と整合性を示す。
最後に,提案手法が言語モデル分類器の停止基準の一部となることを実証的に示す。
各トレーニングイテレーション後の埋め込み空間のクラス分離性を監視することで、トレーニングプロセスが追加ラベルを使わずに埋め込みの分離性を改善するのをやめたことを検出できる。
関連論文リスト
- Rethinking Distance Metrics for Counterfactual Explainability [53.436414009687]
本研究では, 反事実を参照領域から独立して引き出すのではなく, 基礎となるデータ分布からの参照と共同してサンプリングする, 反事実生成手法のフレーミングについて検討する。
我々は、幅広い設定に適用可能な、反ファクト的な類似性のために調整された距離メートル法を導出する。
論文 参考訳(メタデータ) (2024-10-18T15:06:50Z) - Enhancing Hyperspectral Image Prediction with Contrastive Learning in Low-Label Regime [0.810304644344495]
自己教師付きコントラスト学習は、限られたラベル付きデータの課題に対処するための効果的なアプローチである。
単一ラベルと複数ラベルの分類タスクに対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-10-10T10:20:16Z) - Contextualizing the Limits of Model & Evaluation Dataset Curation on
Semantic Similarity Classification Tasks [1.8130068086063336]
本稿では,事前学習されたモデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。
1)これらのデータセットのキュレーションや事前学習したモデルトレーニング体制のエンドユーザー向けドキュメンテーションは容易にはアクセスできないことが多く,(2)現実の文脈でそのようなシステムを迅速に展開するための低摩擦と高需要を考えると,本研究では,データセット間の性能格差,埋め込み技術,距離測定値などを示す先行作業を強化する。
論文 参考訳(メタデータ) (2023-11-03T17:12:07Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Visualization of Supervised and Self-Supervised Neural Networks via
Attribution Guided Factorization [87.96102461221415]
クラスごとの説明性を提供するアルゴリズムを開発した。
実験の広範なバッテリーでは、クラス固有の可視化のための手法の能力を実証する。
論文 参考訳(メタデータ) (2020-12-03T18:48:39Z) - Classifier Chains: A Review and Perspectives [3.752624871808558]
分類器連鎖と呼ばれる手法の系統は、多ラベル学習問題に対する一般的なアプローチとなっている。
この研究は、文献で提供される技術と拡張のレビューと、将来マルチラベル分類の分野におけるこのアプローチの展望を提供する。
論文 参考訳(メタデータ) (2019-12-26T11:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。