論文の概要: Like a Good Nearest Neighbor: Practical Content Moderation with Sentence
Transformers
- arxiv url: http://arxiv.org/abs/2302.08957v1
- Date: Fri, 17 Feb 2023 15:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 14:16:57.636714
- Title: Like a Good Nearest Neighbor: Practical Content Moderation with Sentence
Transformers
- Title(参考訳): 近しい隣人のように:文変換による実用的なコンテンツモデレーション
- Authors: Luke Bates and Iryna Gurevych
- Abstract要約: LaGoNN(Good Nearest Neighbor)は、SetFitの安価な修正で、隣人に関する情報で入力を変更できる。
LaGoNNは有害なコンテンツの検出に有効であり、SetFitと比較して一般的にパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 67.83624838709827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern text classification systems have impressive capabilities but are
infeasible to deploy and use reliably due to their dependence on prompting and
billion-parameter language models. SetFit (Tunstall et al., 2022) is a recent,
practical approach that fine-tunes a Sentence Transformer under a contrastive
learning paradigm and achieves similar results to more unwieldy systems. Text
classification is important for addressing the problem of domain drift in
detecting harmful content, which plagues all social media platforms. Here, we
propose Like a Good Nearest Neighbor (LaGoNN), an inexpensive modification to
SetFit that requires no additional parameters or hyperparameters but modifies
input with information about its nearest neighbor, for example, the label and
text, in the training data, making novel data appear similar to an instance on
which the model was optimized. LaGoNN is effective at the task of detecting
harmful content and generally improves performance compared to SetFit. To
demonstrate the value of our system, we conduct a thorough study of text
classification systems in the context of content moderation under four label
distributions.
- Abstract(参考訳): 現代のテキスト分類システムには印象的な能力があるが、プロンプトや10億パラメータの言語モデルに依存するため、デプロイや使用が確実にできない。
SetFit (Tunstall et al., 2022)は、Sentence Transformerを対照的な学習パラダイムの下で微調整し、より弱いシステムに類似した結果をもたらす、最近の実用的なアプローチである。
テキスト分類は、すべてのソーシャルメディアプラットフォームを悩ませる有害コンテンツの検出におけるドメインドリフトの問題に対処する上で重要である。
本稿では,SetFitに新たなパラメータやハイパーパラメータを必要とせず,近隣のラベルやテキストなどの情報をトレーニングデータに付加して入力を修正し,モデルが最適化されたインスタンスに類似した新しいデータを提示する「Like a Good Nearest Neighbor」(LaGoNN)を提案する。
LaGoNNは有害なコンテンツの検出に有効であり、SetFitと比較して一般的にパフォーマンスが向上する。
本システムの価値を実証するために,4つのラベル分布におけるコンテンツモデレーションの文脈におけるテキスト分類システムの徹底的な研究を行う。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using
Genre Classification [0.27195102129095]
トピックの分布が変化すると、分類タスクは依然としてパフォーマンスのギャップに悩まされる。
我々はこの現象を、大きなコーパスと大きなトピックセットで実証的に定量化する。
学習データセットを局所的に制御された合成テキストで強化した後、いくつかのトピックでF1スコアは最大50%改善する。
論文 参考訳(メタデータ) (2023-11-27T18:53:31Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text
Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。
これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文 参考訳(メタデータ) (2021-01-30T15:18:35Z) - TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。
16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文 参考訳(メタデータ) (2020-12-11T19:23:28Z) - Rank over Class: The Untapped Potential of Ranking in Natural Language
Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。
本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。
重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文 参考訳(メタデータ) (2020-09-10T22:18:57Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。