論文の概要: Contextualizing the Limits of Model & Evaluation Dataset Curation on
Semantic Similarity Classification Tasks
- arxiv url: http://arxiv.org/abs/2311.04927v1
- Date: Fri, 3 Nov 2023 17:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:22:02.466413
- Title: Contextualizing the Limits of Model & Evaluation Dataset Curation on
Semantic Similarity Classification Tasks
- Title(参考訳): 意味的類似性分類課題におけるモデル・評価データセットのキュレーション限界の文脈化
- Authors: Daniel Theron
- Abstract要約: 本稿では,事前学習されたモデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。
1)これらのデータセットのキュレーションや事前学習したモデルトレーニング体制のエンドユーザー向けドキュメンテーションは容易にはアクセスできないことが多く,(2)現実の文脈でそのようなシステムを迅速に展開するための低摩擦と高需要を考えると,本研究では,データセット間の性能格差,埋め込み技術,距離測定値などを示す先行作業を強化する。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates how the limitations of pre-trained models and open
evaluation datasets factor into assessing the performance of binary semantic
similarity classification tasks. As (1) end-user-facing documentation around
the curation of these datasets and pre-trained model training regimes is often
not easily accessible and (2) given the lower friction and higher demand to
quickly deploy such systems in real-world contexts, our study reinforces prior
work showing performance disparities across datasets, embedding techniques and
distance metrics, while highlighting the importance of understanding how data
is collected, curated and analyzed in semantic similarity classification.
- Abstract(参考訳): 本稿では,事前学習モデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。
As (1) end-user-facing documentation around the curation of these datasets and pre-trained model training regimes is often not easily accessible and (2) given the lower friction and higher demand to quickly deploy such systems in real-world contexts, our study reinforces prior work showing performance disparities across datasets, embedding techniques and distance metrics, while highlighting the importance of understanding how data is collected, curated and analyzed in semantic similarity classification.
関連論文リスト
- Bridging the Gap: Learning Pace Synchronization for Open-World
Semi-Supervised Learning [49.07038093130949]
オープンワールドの半教師付き学習において、機械学習モデルはラベルなしのデータから新しいカテゴリを明らかにすることを任務とする。
モデルは、正確な監督情報によって、前者をより早く学習する。
本稿では,1) クラス分布の推定に基づく適応的マージンの損失,2) 学習ペースの同期化,2) 出力空間の同じクラスからサンプルを抽出する擬似ラベルコントラストクラスタリングについて紹介する。
論文 参考訳(メタデータ) (2023-09-21T09:44:39Z) - Bias and Fairness in Large Language Models: A Survey [76.65471160523444]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Towards Weakly-Supervised Hate Speech Classification Across Datasets [72.12707900327558]
そこで本研究では,テキスト分類モデルの有効性について検討した。
また,HS分類モデルの一般化性の低さの原因について,詳細な定量的,定性的な分析を行った。
論文 参考訳(メタデータ) (2023-05-04T08:15:40Z) - A classification performance evaluation measure considering data
separability [6.751026374812737]
本稿では,データ符号化率に基づく新たな分離可能性尺度を提案する。
実データセットから構築したマルチタスクシナリオにおいて,提案手法と認識精度の正の相関性を示す。
論文 参考訳(メタデータ) (2022-11-10T09:18:26Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Conditional Supervised Contrastive Learning for Fair Text Classification [59.813422435604025]
対照的な学習を通してテキスト分類のための等化オッズとして知られる公平性の概念を満たす学習公正表現について研究する。
具体的には、まず、公正性制約のある学習表現と条件付き教師付きコントラスト目的との間の関係を理論的に分析する。
論文 参考訳(メタデータ) (2022-05-23T17:38:30Z) - Boxhead: A Dataset for Learning Hierarchical Representations [16.036906124241835]
階層的に構造化された基底構造生成因子を持つデータセットであるBoxheadを紹介する。
階層的モデルは一般に階層的に配置された因子の非絡み合いという点で単層VAEよりも優れる。
論文 参考訳(メタデータ) (2021-10-07T17:15:25Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Contrastive estimation reveals topic posterior information to linear
models [38.80336134485453]
コントラスト学習(Contrastive Learning)は、自然に発生する類似データと異なるデータポイントのペアを利用して、データに有用な埋め込みを見つけるための表現学習のアプローチである。
比較学習は、その基礎となるトピック後続情報を線形モデルに示す文書の表現を復元できることを示す。
論文 参考訳(メタデータ) (2020-03-04T18:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。