論文の概要: Contextualizing the Limits of Model & Evaluation Dataset Curation on
Semantic Similarity Classification Tasks
- arxiv url: http://arxiv.org/abs/2311.04927v1
- Date: Fri, 3 Nov 2023 17:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-12 19:22:02.466413
- Title: Contextualizing the Limits of Model & Evaluation Dataset Curation on
Semantic Similarity Classification Tasks
- Title(参考訳): 意味的類似性分類課題におけるモデル・評価データセットのキュレーション限界の文脈化
- Authors: Daniel Theron
- Abstract要約: 本稿では,事前学習されたモデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。
1)これらのデータセットのキュレーションや事前学習したモデルトレーニング体制のエンドユーザー向けドキュメンテーションは容易にはアクセスできないことが多く,(2)現実の文脈でそのようなシステムを迅速に展開するための低摩擦と高需要を考えると,本研究では,データセット間の性能格差,埋め込み技術,距離測定値などを示す先行作業を強化する。
- 参考スコア(独自算出の注目度): 1.8130068086063336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper demonstrates how the limitations of pre-trained models and open
evaluation datasets factor into assessing the performance of binary semantic
similarity classification tasks. As (1) end-user-facing documentation around
the curation of these datasets and pre-trained model training regimes is often
not easily accessible and (2) given the lower friction and higher demand to
quickly deploy such systems in real-world contexts, our study reinforces prior
work showing performance disparities across datasets, embedding techniques and
distance metrics, while highlighting the importance of understanding how data
is collected, curated and analyzed in semantic similarity classification.
- Abstract(参考訳): 本稿では,事前学習モデルとオープン評価データセットの制限が,バイナリ意味類似性分類タスクの性能評価にどう影響するかを示す。
As (1) end-user-facing documentation around the curation of these datasets and pre-trained model training regimes is often not easily accessible and (2) given the lower friction and higher demand to quickly deploy such systems in real-world contexts, our study reinforces prior work showing performance disparities across datasets, embedding techniques and distance metrics, while highlighting the importance of understanding how data is collected, curated and analyzed in semantic similarity classification.
関連論文リスト
- Enhancing Model Fairness and Accuracy with Similarity Networks: A Methodological Approach [0.20718016474717196]
インスタンスを類似機能空間にマッピングするために、さまざまなテクニックを使用します。
本手法は, モデルフェアネスとデータセット分類複雑性の関係について, ペアワイズ類似性の分解能を調整できる。
論文 参考訳(メタデータ) (2024-11-08T15:43:01Z) - Contextuality Helps Representation Learning for Generalized Category Discovery [5.885208652383516]
本稿では、文脈性の概念を活用することにより、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。
我々のモデルでは,コントラスト学習に最も近いコンテキストが使用されるインスタンスレベルと,コントラスト学習を利用するクラスタレベルという,2つのコンテキストレベルを統合している。
文脈情報の統合は、特徴学習を効果的に改善し、その結果、すべてのカテゴリの分類精度が向上する。
論文 参考訳(メタデータ) (2024-07-29T07:30:41Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - A classification performance evaluation measure considering data
separability [6.751026374812737]
本稿では,データ符号化率に基づく新たな分離可能性尺度を提案する。
実データセットから構築したマルチタスクシナリオにおいて,提案手法と認識精度の正の相関性を示す。
論文 参考訳(メタデータ) (2022-11-10T09:18:26Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Conditional Supervised Contrastive Learning for Fair Text Classification [59.813422435604025]
対照的な学習を通してテキスト分類のための等化オッズとして知られる公平性の概念を満たす学習公正表現について研究する。
具体的には、まず、公正性制約のある学習表現と条件付き教師付きコントラスト目的との間の関係を理論的に分析する。
論文 参考訳(メタデータ) (2022-05-23T17:38:30Z) - CDEvalSumm: An Empirical Study of Cross-Dataset Evaluation for Neural
Summarization Systems [121.78477833009671]
データセット間設定下での様々な要約モデルの性能について検討する。
異なるドメインの5つのデータセットに対する11の代表的な要約システムに関する包括的な研究は、モデルアーキテクチャと生成方法の影響を明らかにしている。
論文 参考訳(メタデータ) (2020-10-11T02:19:15Z) - Contrastive estimation reveals topic posterior information to linear
models [38.80336134485453]
コントラスト学習(Contrastive Learning)は、自然に発生する類似データと異なるデータポイントのペアを利用して、データに有用な埋め込みを見つけるための表現学習のアプローチである。
比較学習は、その基礎となるトピック後続情報を線形モデルに示す文書の表現を復元できることを示す。
論文 参考訳(メタデータ) (2020-03-04T18:20:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。