論文の概要: Estimating class separability of text embeddings with persistent homology
- arxiv url: http://arxiv.org/abs/2305.15016v4
- Date: Tue, 18 Jun 2024 15:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 05:33:23.992698
- Title: Estimating class separability of text embeddings with persistent homology
- Title(参考訳): 持続的ホモロジーを用いたテキスト埋め込みのクラス分離性の推定
- Authors: Kostis Gourgoulias, Najah Ghalyan, Maxime Labonne, Yash Satsangi, Sean Moran, Joseph Sabelja,
- Abstract要約: 本稿では、トポロジ的観点からテキストデータセットのクラス分離性を推定する教師なし手法を提案する。
本手法を応用して, 組込みの分離性向上を図り, トレーニングプロセスが停止した場合の検知方法について述べる。
その結果,本手法のクラス分離性の推定値と教師付き手法のクラス分離性の推定値が一致していることが示唆された。
- 参考スコア(独自算出の注目度): 1.9956517534421363
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper introduces an unsupervised method to estimate the class separability of text datasets from a topological point of view. Using persistent homology, we demonstrate how tracking the evolution of embedding manifolds during training can inform about class separability. More specifically, we show how this technique can be applied to detect when the training process stops improving the separability of the embeddings. Our results, validated across binary and multi-class text classification tasks, show that the proposed method's estimates of class separability align with those obtained from supervised methods. This approach offers a novel perspective on monitoring and improving the fine-tuning of sentence transformers for classification tasks, particularly in scenarios where labeled data is scarce. We also discuss how tracking these quantities can provide additional insights into the properties of the trained classifier.
- Abstract(参考訳): 本稿では、トポロジ的観点からテキストデータセットのクラス分離性を推定する教師なし手法を提案する。
持続的ホモロジーを用いて、学習中の埋め込み多様体の進化の追跡がクラス分離性についてどのように情報を与えるかを示す。
より具体的には、この手法が、トレーニングプロセスが埋め込みの分離性を改善するのをやめたときにどのように適用できるかを示す。
その結果,本手法のクラス分離性の推定値と教師付き手法のクラス分離性の推定値が一致していることが示唆された。
このアプローチは、特にラベル付きデータが不足しているシナリオにおいて、分類タスクのための文変換器の微調整の監視と改善に関する新しい視点を提供する。
また、これらの量を追跡することで、トレーニング済みの分類器の特性に関するさらなる洞察が得られるかについても論じる。
関連論文リスト
- Rethinking Distance Metrics for Counterfactual Explainability [53.436414009687]
本研究では, 反事実を参照領域から独立して引き出すのではなく, 基礎となるデータ分布からの参照と共同してサンプリングする, 反事実生成手法のフレーミングについて検討する。
我々は、幅広い設定に適用可能な、反ファクト的な類似性のために調整された距離メートル法を導出する。
論文 参考訳(メタデータ) (2024-10-18T15:06:50Z) - Enhancing Hyperspectral Image Prediction with Contrastive Learning in Low-Label Regime [0.810304644344495]
自己教師付きコントラスト学習は、限られたラベル付きデータの課題に対処するための効果的なアプローチである。
単一ラベルと複数ラベルの分類タスクに対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-10-10T10:20:16Z) - Contextualizing the Limits of Model & Evaluation Dataset Curation on
Semantic Similarity Classification Tasks [1.8130068086063336]
本稿では,事前学習されたモデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。
1)これらのデータセットのキュレーションや事前学習したモデルトレーニング体制のエンドユーザー向けドキュメンテーションは容易にはアクセスできないことが多く,(2)現実の文脈でそのようなシステムを迅速に展開するための低摩擦と高需要を考えると,本研究では,データセット間の性能格差,埋め込み技術,距離測定値などを示す先行作業を強化する。
論文 参考訳(メタデータ) (2023-11-03T17:12:07Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Discriminative Attribution from Counterfactuals [64.94009515033984]
本稿では,特徴属性と反実的説明を組み合わせたニューラルネットワークの解釈可能性について述べる。
本手法は,特徴属性法の性能を客観的に評価するために有効であることを示す。
論文 参考訳(メタデータ) (2021-09-28T00:53:34Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Visualization of Supervised and Self-Supervised Neural Networks via
Attribution Guided Factorization [87.96102461221415]
クラスごとの説明性を提供するアルゴリズムを開発した。
実験の広範なバッテリーでは、クラス固有の可視化のための手法の能力を実証する。
論文 参考訳(メタデータ) (2020-12-03T18:48:39Z) - Classifier Chains: A Review and Perspectives [3.752624871808558]
分類器連鎖と呼ばれる手法の系統は、多ラベル学習問題に対する一般的なアプローチとなっている。
この研究は、文献で提供される技術と拡張のレビューと、将来マルチラベル分類の分野におけるこのアプローチの展望を提供する。
論文 参考訳(メタデータ) (2019-12-26T11:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。