論文の概要: Identifying Semantically Difficult Samples to Improve Text
Classification
- arxiv url: http://arxiv.org/abs/2302.06155v1
- Date: Mon, 13 Feb 2023 07:33:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:25:45.271604
- Title: Identifying Semantically Difficult Samples to Improve Text
Classification
- Title(参考訳): テキスト分類改善のための意味的に難解なサンプルの同定
- Authors: Shashank Mujumdar, Stuti Mehta, Hima Patel, Suman Mitra
- Abstract要約: 下流テキスト分類タスクにおけるテキストデータセットからの難解なサンプルに対処する効果について検討する。
難解なサンプルを,意味的な埋め込み空間で解析することで,テキスト分類の難解な事例と定義する。
13の標準データセットに対して、一貫した改善を最大9%まで示す徹底的な実験を行った。
- 参考スコア(独自算出の注目度): 4.545971444299925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the effect of addressing difficult samples from
a given text dataset on the downstream text classification task. We define
difficult samples as being non-obvious cases for text classification by
analysing them in the semantic embedding space; specifically - (i) semantically
similar samples that belong to different classes and (ii) semantically
dissimilar samples that belong to the same class. We propose a penalty function
to measure the overall difficulty score of every sample in the dataset. We
conduct exhaustive experiments on 13 standard datasets to show a consistent
improvement of up to 9% and discuss qualitative results to show effectiveness
of our approach in identifying difficult samples for a text classification
model.
- Abstract(参考訳): 本稿では,あるテキストデータセットから抽出した難しいサンプルが下流テキスト分類タスクに与える影響について検討する。
我々は、難解なサンプルを、意味的な埋め込み空間で解析することで、テキスト分類の不可避なケースとして定義する。
(i)異なるクラスに属する意味的に類似したサンプル
(ii)同一クラスに属する意味的に異質なサンプル。
データセット内の各サンプルの総合難易度スコアを測定するためのペナルティ関数を提案する。
13の標準データセットについて徹底的な実験を行い,9%までの一貫性のある改善を示すとともに,テキスト分類モデルにおける難解なサンプル同定における質的結果の有効性を示す。
関連論文リスト
- Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing [71.29488677105127]
既存のシーンテキスト認識(STR)手法は、特に芸術的で歪んだ文字に対して、挑戦的なテキストを認識するのに苦労している。
人的コストを伴わずに、合成データと実際のラベルなしデータを活用して、対照的な学習ベースのSTRフレームワークを提案する。
本手法は,共通ベンチマークとUnion14M-Benchmarkで平均精度94.7%,70.9%のSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-11-23T15:24:47Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - Differences Between Hard and Noisy-labeled Samples: An Empirical Study [7.132368785057315]
ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-20T09:24:23Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Text sampling strategies for predicting missing bibliographic links [0.0]
本稿では,自動文分類を行う際に,テキストをサンプリングする様々な手法を提案する。
文脈サイズと位置の異なる多くのサンプリング戦略について検討する。
本手法は,応用知的情報システムのレコメンデーションエンジンに使用することができる。
論文 参考訳(メタデータ) (2023-01-04T15:53:50Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Assessing the Quality of the Datasets by Identifying Mislabeled Samples [14.881597737762316]
本稿では,各データ点の品質を測る指標として,新しい統計値(ノイズスコア)を提案する。
本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。
我々は、MNIST、FashionMNIST、CIFAR10/100データセットを破損させることにより、提案した統計データを検証した。
論文 参考訳(メタデータ) (2021-09-10T17:14:09Z) - Constructing Contrastive samples via Summarization for Text
Classification with limited annotations [46.53641181501143]
テキスト要約を用いた言語タスクのコントラストサンプル構築のための新しい手法を提案する。
我々はこれらのサンプルを教師付きコントラスト学習に使用し、アノテーションを限定したより良いテキスト表現を得る。
実世界のテキスト分類データセット(Amazon-5、Yelp-5、AG News)の実験では、提案したコントラスト学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2021-04-11T20:13:24Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。