論文の概要: Cost-Sensitive BERT for Generalisable Sentence Classification with
Imbalanced Data
- arxiv url: http://arxiv.org/abs/2003.11563v1
- Date: Mon, 16 Mar 2020 19:10:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 02:29:16.004835
- Title: Cost-Sensitive BERT for Generalisable Sentence Classification with
Imbalanced Data
- Title(参考訳): 不均衡データを用いた一般文分類のためのコスト感性BERT
- Authors: Harish Tayyar Madabushi, Elena Kochkina, Michael Castelle
- Abstract要約: トレーニングデータとテストデータが十分に異なる場合,BERTは十分に一般化しないことを示す。
本稿では,データセット間の類似度を統計的に測定し,コスト重み付けをBERTに組み込むことにより,この問題に対処する方法を示す。
文レベルのプロパガンダ分類における2番目に高いスコアを得る。
- 参考スコア(独自算出の注目度): 5.08128537391027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automatic identification of propaganda has gained significance in recent
years due to technological and social changes in the way news is generated and
consumed. That this task can be addressed effectively using BERT, a powerful
new architecture which can be fine-tuned for text classification tasks, is not
surprising. However, propaganda detection, like other tasks that deal with news
documents and other forms of decontextualized social communication (e.g.
sentiment analysis), inherently deals with data whose categories are
simultaneously imbalanced and dissimilar. We show that BERT, while capable of
handling imbalanced classes with no additional data augmentation, does not
generalise well when the training and test data are sufficiently dissimilar (as
is often the case with news sources, whose topics evolve over time). We show
how to address this problem by providing a statistical measure of similarity
between datasets and a method of incorporating cost-weighting into BERT when
the training and test sets are dissimilar. We test these methods on the
Propaganda Techniques Corpus (PTC) and achieve the second-highest score on
sentence-level propaganda classification.
- Abstract(参考訳): プロパガンダの自動識別は、ニュースの生成と消費の方法の技術的および社会的変化によって、近年、重要性を増している。
このタスクは、テキスト分類タスクのために微調整できる強力な新しいアーキテクチャであるBERTを使って効果的に処理できるので、驚くにはあたらない。
しかし、プロパガンダ検出は、ニュース文書やその他の非コンテキスト化された社会コミュニケーション(感情分析など)を扱う他のタスクと同様に、本質的にはカテゴリが不均衡で相容れないデータを扱う。
bertは、追加のデータ拡張なしで不均衡なクラスを処理できるが、トレーニングとテストデータが十分に異なる場合(しばしばニュースソースの場合のように、時間とともにトピックが進化する)はうまく一般化しない。
本稿では,データセット間の類似性の統計的尺度と,トレーニングとテストセットが異なる場合のコスト重み付けをBERTに組み込むことにより,この問題に対処する方法を示す。
本稿では,これらの手法をPropaganda Techniques Corpus (PTC) で検証し,文レベルのプロパガンダ分類における2番目に高いスコアを得た。
関連論文リスト
- Zero-shot prompt-based classification: topic labeling in times of foundation models in German Tweets [1.734165485480267]
そこで,本論文では,文章ガイドラインを用いてテキストを自動的に注釈付けするツールについて,トレーニングサンプルを提供することなく提案する。
提案手法は細調整されたBERTに匹敵するが,アノテートしたトレーニングデータはない。
本研究は,NLPランドスケープにおける進行中のパラダイムシフト,すなわち下流タスクの統一と事前ラベル付きトレーニングデータの必要性の排除を強調した。
論文 参考訳(メタデータ) (2024-06-26T10:44:02Z) - BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using
Genre Classification [0.27195102129095]
トピックの分布が変化すると、分類タスクは依然としてパフォーマンスのギャップに悩まされる。
我々はこの現象を、大きなコーパスと大きなトピックセットで実証的に定量化する。
学習データセットを局所的に制御された合成テキストで強化した後、いくつかのトピックでF1スコアは最大50%改善する。
論文 参考訳(メタデータ) (2023-11-27T18:53:31Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Noisy Self-Training with Data Augmentations for Offensive and Hate
Speech Detection Tasks [3.703767478524629]
ノイズ」自己学習アプローチには、予測整合性を確保し、敵攻撃に対する堅牢性を高めるために、データ拡張技術が組み込まれている。
2つの攻撃的/ヘイト音声データセットについて実験を行い、(i)自己学習はモデルのサイズに関わらず一貫して性能を向上し、両方のデータセットで最大1.5%F1マクロとなり、(ii)テキストデータ拡張によるノイズの多い自己学習は、同様の設定でうまく適用されているにもかかわらず、デフォルトの手法と比較して、バックトランスレーションのような最先端の手法であっても、攻撃的およびヘイト音声ドメインのパフォーマンスを低下させることを示した。
論文 参考訳(メタデータ) (2023-07-31T12:35:54Z) - WC-SBERT: Zero-Shot Text Classification via SBERT with Self-Training for
Wikipedia Categories [5.652290685410878]
本研究は,NLPにおけるゼロショットテキスト分類問題の解決に重点を置いている。
本稿では,テキストではなくラベルを用いた新たな自己学習戦略を提案する。
提案手法は,Yahoo Topic と AG News の双方のデータセットに対して,最先端の結果を得られる。
論文 参考訳(メタデータ) (2023-07-28T04:17:41Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - InfoCSE: Information-aggregated Contrastive Learning of Sentence
Embeddings [61.77760317554826]
本稿では,教師なし文の埋め込みを学習するための情報型コントラスト学習フレームワーク InfoCSE を提案する。
提案したInfoCSEを,セマンティックテキスト類似性(STS)タスクを用いて,いくつかのベンチマークデータセット上で評価する。
実験の結果, InfoCSE は BERT ベースでは2.60%, BERT 大規模では1.77% でSimCSE より優れていた。
論文 参考訳(メタデータ) (2022-10-08T15:53:19Z) - Rating Facts under Coarse-to-fine Regimes [0.533024001730262]
PolitiFactから24Kのレーティングステートメントを手作業で収集します。
我々のタスクは、クラス間の様々な類似性のため、標準分類から逸脱している。
トレーニング後、クラス類似性は、特にきめ細かいデータセットにおいて、マルチクラスデータセットに対して意味がある。
論文 参考訳(メタデータ) (2021-07-13T13:05:11Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。