論文の概要: Research on Violent Text Detection System Based on BERT-fasttext Model
- arxiv url: http://arxiv.org/abs/2412.16455v1
- Date: Sat, 21 Dec 2024 03:02:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:01:39.065130
- Title: Research on Violent Text Detection System Based on BERT-fasttext Model
- Title(参考訳): BERT高速テキストモデルに基づく暴力的テキスト検出システムに関する研究
- Authors: Yongsheng Yang, Xiaoying Wang,
- Abstract要約: BERT-fasttextモデルに基づく暴力的テキスト切断の研究は重要な意味を持つ。
BERTは、強い自然言語理解能力を持つ事前訓練された言語モデルであり、テキストの意味情報を深く掘り下げて分析することができる。
Fasttext自体は、複雑さと効果の低い効率的なテキスト分類ツールであり、テキスト処理の基本的な判断を素早く提供することができる。
- 参考スコア(独自算出の注目度): 1.686088451868343
- License:
- Abstract: In the digital age of today, the internet has become an indispensable platform for people's lives, work, and information exchange. However, the problem of violent text proliferation in the network environment has arisen, which has brought about many negative effects. In view of this situation, it is particularly important to build an effective system for cutting off violent text. The study of violent text cutting off based on the BERT-fasttext model has significant meaning. BERT is a pre-trained language model with strong natural language understanding ability, which can deeply mine and analyze text semantic information; Fasttext itself is an efficient text classification tool with low complexity and good effect, which can quickly provide basic judgments for text processing. By combining the two and applying them to the system for cutting off violent text, on the one hand, it can accurately identify violent text, and on the other hand, it can efficiently and reasonably cut off the content, preventing harmful information from spreading freely on the network. Compared with the single BERT model and fasttext, the accuracy was improved by 0.7% and 0.8%, respectively. Through this model, it is helpful to purify the network environment, maintain the health of network information, and create a positive, civilized, and harmonious online communication space for netizens, driving the development of social networking, information dissemination, and other aspects in a more benign direction.
- Abstract(参考訳): 今日のデジタル時代には、インターネットは人々の生活、仕事、情報交換にとって欠かせないプラットフォームになっている。
しかし、ネットワーク環境における暴力的なテキスト拡散の問題は発生し、多くのネガティブな影響をもたらした。
この状況を考えると、特に暴力的なテキストを切断する効果的なシステムを構築することが重要である。
BERT-fasttextモデルに基づく暴力的テキスト切断の研究は重要な意味を持つ。
BERTは、強い自然言語理解能力を持つ事前訓練された言語モデルであり、テキスト意味情報を深く掘り下げて分析することができる。
この2つを組み合わせて、暴力的なテキストを切断するシステムに適用することにより、暴力的なテキストを正確に識別し、一方、有害な情報がネットワーク上で自由に拡散するのを効果的かつ合理的に遮断することができる。
単一のBERTモデルと高速テキストと比較すると、それぞれ0.7%と0.8%の精度が向上した。
このモデルにより、ネットワーク環境の浄化、ネットワーク情報の健全性維持、ネット市民のためのポジティブで文明的で調和の取れたオンラインコミュニケーション空間の構築、ソーシャルネットワークの発展、情報の普及、その他の側面をより良質な方向への推進に役立てることができる。
関連論文リスト
- QiBERT -- Classifying Online Conversations Messages with BERT as a Feature [0.0]
本稿では,ポルトガルの学校におけるオンライン社会会話から得られたデータを用いて行動傾向を観察することを目的とする。
このプロジェクトでは、BERTベースのモデルを通じて、最先端(SoA)機械学習アルゴリズムと手法を使用して、発話が議論の対象の内外かどうかを分類する。
論文 参考訳(メタデータ) (2024-09-09T11:38:06Z) - Text Injection for Neural Contextual Biasing [57.589903308622745]
本研究では文脈テキストインジェクション(CTI)を提案する。
1000億のテキストを持つCTIは、強い神経バイアスモデルから43.3%の相対的なWER削減を達成することができる。
論文 参考訳(メタデータ) (2024-06-05T04:20:17Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased
Speech in Real-World Online Services [5.03606775899383]
KoMultiText"は、韓国の有名なSNSプラットフォームから収集された、包括的で大規模なデータセットである。
本手法は,多種多様な分類課題にまたがる人間レベルの精度を,様々な指標で測定する。
私たちの研究は、現実のヘイトスピーチとバイアス軽減のためのソリューションを提供し、オンラインコミュニティの健康改善に直接貢献します。
論文 参考訳(メタデータ) (2023-10-06T15:19:39Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - TeKo: Text-Rich Graph Neural Networks with External Knowledge [75.91477450060808]
外部知識を用いた新しいテキストリッチグラフニューラルネットワーク(TeKo)を提案する。
まず、高品質なエンティティを組み込んだフレキシブルな異種セマンティックネットワークを提案する。
次に、構造化三重項と非構造化実体記述という2種類の外部知識を導入する。
論文 参考訳(メタデータ) (2022-06-15T02:33:10Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z) - Short Text Classification via Knowledge powered Attention with
Similarity Matrix based CNN [6.6723692875904375]
本稿では,類似度行列に基づく畳み込みニューラルネットワーク(KASM)モデルを用いた知識駆動型アテンションを提案する。
我々は知識グラフ(KG)を用いて短文の意味表現を強化する。
知識の重要性を測定するために,重要な情報を選択するための注意機構を導入する。
論文 参考訳(メタデータ) (2020-02-09T12:08:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。