Fugu-MT 論文翻訳(概要): Like a Good Nearest Neighbor: Practical Content Moderation with Sentence Transformers

論文の概要: Like a Good Nearest Neighbor: Practical Content Moderation with Sentence Transformers

arxiv url: http://arxiv.org/abs/2302.08957v1
Date: Fri, 17 Feb 2023 15:43:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-20 14:16:57.636714
Title: Like a Good Nearest Neighbor: Practical Content Moderation with Sentence Transformers
Title（参考訳）: 近しい隣人のように:文変換による実用的なコンテンツモデレーション
Authors: Luke Bates and Iryna Gurevych
Abstract要約: LaGoNN(Good Nearest Neighbor)は、SetFitの安価な修正で、隣人に関する情報で入力を変更できる。 LaGoNNは有害なコンテンツの検出に有効であり、SetFitと比較して一般的にパフォーマンスが向上する。
参考スコア（独自算出の注目度）: 67.83624838709827
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern text classification systems have impressive capabilities but are infeasible to deploy and use reliably due to their dependence on prompting and billion-parameter language models. SetFit (Tunstall et al., 2022) is a recent, practical approach that fine-tunes a Sentence Transformer under a contrastive learning paradigm and achieves similar results to more unwieldy systems. Text classification is important for addressing the problem of domain drift in detecting harmful content, which plagues all social media platforms. Here, we propose Like a Good Nearest Neighbor (LaGoNN), an inexpensive modification to SetFit that requires no additional parameters or hyperparameters but modifies input with information about its nearest neighbor, for example, the label and text, in the training data, making novel data appear similar to an instance on which the model was optimized. LaGoNN is effective at the task of detecting harmful content and generally improves performance compared to SetFit. To demonstrate the value of our system, we conduct a thorough study of text classification systems in the context of content moderation under four label distributions.
Abstract（参考訳）: 現代のテキスト分類システムには印象的な能力があるが、プロンプトや10億パラメータの言語モデルに依存するため、デプロイや使用が確実にできない。 SetFit (Tunstall et al., 2022)は、Sentence Transformerを対照的な学習パラダイムの下で微調整し、より弱いシステムに類似した結果をもたらす、最近の実用的なアプローチである。テキスト分類は、すべてのソーシャルメディアプラットフォームを悩ませる有害コンテンツの検出におけるドメインドリフトの問題に対処する上で重要である。本稿では,SetFitに新たなパラメータやハイパーパラメータを必要とせず,近隣のラベルやテキストなどの情報をトレーニングデータに付加して入力を修正し,モデルが最適化されたインスタンスに類似した新しいデータを提示する「Like a Good Nearest Neighbor」(LaGoNN)を提案する。 LaGoNNは有害なコンテンツの検出に有効であり、SetFitと比較して一般的にパフォーマンスが向上する。本システムの価値を実証するために,4つのラベル分布におけるコンテンツモデレーションの文脈におけるテキスト分類システムの徹底的な研究を行う。

関連論文リスト

Label Distribution Learning-Enhanced Dual-KNN for Text Classification [24.992774049517994]
トレーニング中にモデル自体が生成した内部情報、例えばテキスト埋め込みや予測ラベル確率分布は、いくつかのテキストの結果を予測する際に悪用される。 2つの$k$NNモジュールを持つ2つの$k$近辺(D$k$NN)フレームワークを提案し、トレーニングセットから複数の隣人を検索し、ラベルの分布を拡大する。また,ラベルの類似性を学習するラベル分布学習モジュールを導入し,より優れたラベル分布を生成することにより,モデルによるテキストの識別をより効果的に行えるようにした。
論文参考訳（メタデータ） (2025-03-06T15:15:26Z)
Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文参考訳（メタデータ） (2024-03-26T12:47:39Z)
BERT Goes Off-Topic: Investigating the Domain Transfer Challenge using Genre Classification [0.27195102129095]
トピックの分布が変化すると、分類タスクは依然としてパフォーマンスのギャップに悩まされる。我々はこの現象を、大きなコーパスと大きなトピックセットで実証的に定量化する。学習データセットを局所的に制御された合成テキストで強化した後、いくつかのトピックでF1スコアは最大50%改善する。
論文参考訳（メタデータ） (2023-11-27T18:53:31Z)
Description-Enhanced Label Embedding Contrastive Learning for Text Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文参考訳（メタデータ） (2023-06-15T02:19:34Z)
Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文参考訳（メタデータ） (2022-05-23T15:51:19Z)
Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。 LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文参考訳（メタデータ） (2022-04-14T17:33:34Z)
ShufText: A Simple Black Box Approach to Evaluate the Fragility of Text Classification Models [0.0]
CNN、LSTM、Transformersに基づくディープラーニングアプローチは、テキスト分類における事実上のアプローチである。これらのシステムは、分類に有用なテキストに現れる重要な単語に過度に依存していることを示す。
論文参考訳（メタデータ） (2021-01-30T15:18:35Z)
TF-CR: Weighting Embeddings for Text Classification [6.531659195805749]
本稿では,単語埋め込みの計算において,高頻度のカテゴリー排他語を重み付け可能な新しい重み付け方式TF-CRを提案する。 16の分類データセットの実験はTF-CRの有効性を示し、既存の重み付け方式よりもパフォーマンススコアが向上した。
論文参考訳（メタデータ） (2020-12-11T19:23:28Z)
Rank over Class: The Untapped Potential of Ranking in Natural Language Processing [8.637110868126546]
我々は、現在分類を用いて対処されている多くのタスクが、実際には分類モールドに切り替わっていると論じる。本稿では,一対のテキストシーケンスの表現を生成するトランスフォーマーネットワークからなる新しいエンドツーエンドランキング手法を提案する。重く歪んだ感情分析データセットの実験では、ランキング結果を分類ラベルに変換すると、最先端のテキスト分類よりも約22%改善する。
論文参考訳（メタデータ） (2020-09-10T22:18:57Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。