論文の概要: Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification
- arxiv url: http://arxiv.org/abs/2302.08957v3
- Date: Mon, 29 Jan 2024 12:39:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 23:04:40.365569
- Title: Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification
- Title(参考訳): 身近な隣人のように:実践的なコンテンツモデレーションとテキスト分類
- Authors: Luke Bates and Iryna Gurevych
- Abstract要約: LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
- 参考スコア(独自算出の注目度): 66.02091763340094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot text classification systems have impressive capabilities but are
infeasible to deploy and use reliably due to their dependence on prompting and
billion-parameter language models. SetFit (Tunstall et al., 2022) is a recent,
practical approach that fine-tunes a Sentence Transformer under a contrastive
learning paradigm and achieves similar results to more unwieldy systems.
Inexpensive text classification is important for addressing the problem of
domain drift in all classification tasks, and especially in detecting harmful
content, which plagues social media platforms. Here, we propose Like a Good
Nearest Neighbor (LaGoNN), a modification to SetFit that introduces no
learnable parameters but alters input text with information from its nearest
neighbor, for example, the label and text, in the training data, making novel
data appear similar to an instance on which the model was optimized. LaGoNN is
effective at flagging undesirable content and text classification, and improves
the performance of SetFit. To demonstrate the value of LaGoNN, we conduct a
thorough study of text classification systems in the context of content
moderation under four label distributions, and in general and multilingual
classification settings.
- Abstract(参考訳): 数少ないテキスト分類システムは印象的な機能を持つが、プロンプトや10億パラメータの言語モデルに依存するため、デプロイや信頼性の高い使用は不可能である。
SetFit (Tunstall et al., 2022)は、Sentence Transformerを対照的な学習パラダイムの下で微調整し、より弱いシステムに類似した結果をもたらす、最近の実用的なアプローチである。
安価なテキスト分類は、すべての分類タスクにおけるドメインドリフトの問題、特にソーシャルメディアプラットフォームを悩ませる有害コンテンツの検出において重要である。
本稿では,学習可能なパラメータを含まないが,学習データ中のラベルやテキストなどの近隣の情報を入力テキストに変更し,新しいデータをモデルが最適化されたインスタンスに類似させる,SetFitの修正であるLike a Good Nearest Neighbor(LaGoNN)を提案する。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
ラゴンの価値を示すために,4つのラベル分布におけるコンテンツモデレーションの文脈におけるテキスト分類システムと,一般言語および多言語分類設定を徹底的に検討した。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using
Genre Classification [0.27195102129095]
トピックの分布が変化すると、分類タスクは依然としてパフォーマンスのギャップに悩まされる。
我々はこの現象を、大きなコーパスと大きなトピックセットで実証的に定量化する。
学習データセットを局所的に制御された合成テキストで強化した後、いくつかのトピックでF1スコアは最大50%改善する。
論文 参考訳(メタデータ) (2023-11-27T18:53:31Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text
Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。
これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文 参考訳(メタデータ) (2021-01-30T15:18:35Z) - TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。
16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文 参考訳(メタデータ) (2020-12-11T19:23:28Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。