論文の概要: Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts
- arxiv url: http://arxiv.org/abs/2308.14683v1
- Date: Mon, 28 Aug 2023 16:18:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 13:05:08.110494
- Title: Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts
- Title(参考訳): 微調整ラマ 2 オンライン性的捕食行動と虐待テキストの検出のための大言語モデル
- Authors: Thanh Thi Nguyen, Campbell Wilson, Janis Dalins
- Abstract要約: 本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
- 参考スコア(独自算出の注目度): 2.406214748890827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Detecting online sexual predatory behaviours and abusive language on social
media platforms has become a critical area of research due to the growing
concerns about online safety, especially for vulnerable populations such as
children and adolescents. Researchers have been exploring various techniques
and approaches to develop effective detection systems that can identify and
mitigate these risks. Recent development of large language models (LLMs) has
opened a new opportunity to address this problem more effectively. This paper
proposes an approach to detection of online sexual predatory chats and abusive
language using the open-source pretrained Llama 2 7B-parameter model, recently
released by Meta GenAI. We fine-tune the LLM using datasets with different
sizes, imbalance degrees, and languages (i.e., English, Roman Urdu and Urdu).
Based on the power of LLMs, our approach is generic and automated without a
manual search for a synergy between feature extraction and classifier design
steps like conventional methods in this domain. Experimental results show a
strong performance of the proposed approach, which performs proficiently and
consistently across three distinct datasets with five sets of experiments. This
study's outcomes indicate that the proposed method can be implemented in
real-world applications (even with non-English languages) for flagging sexual
predators, offensive or toxic content, hate speech, and discriminatory language
in online discussions and comments to maintain respectful internet or digital
communities. Furthermore, it can be employed for solving text classification
problems with other potential applications such as sentiment analysis, spam and
phishing detection, sorting legal documents, fake news detection, language
identification, user intent recognition, text-based product categorization,
medical record analysis, and resume screening.
- Abstract(参考訳): オンラインの性的捕食行動や虐待的な言語をソーシャルメディア上で検出することは、オンラインの安全性に対する懸念が高まり、特に子供や青年のような脆弱な人々にとって重要な研究分野となっている。
研究者は、これらのリスクを識別し緩和できる効果的な検出システムを開発するための様々な技術やアプローチを模索している。
近年の大規模言語モデル(LLM)の発展により,この問題をより効果的に解決する新たな機会が開かれた。
本稿では,Meta GenAIが最近リリースしたオープンソースの事前学習型Llama 2 7Bパラメータモデルを用いて,オンラインの性的捕食チャットと虐待言語を検出するアプローチを提案する。
異なるサイズ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いて、LSMを微調整します。
LLMのパワーに基づいて,本手法は従来の手法のように,特徴抽出と分類器設計の相乗関係を手作業で検索することなく,汎用的かつ自動化されている。
実験結果から,提案手法は3つの異なるデータセットにまたがって,5つの実験セットで熟達かつ一貫した性能を示す。
本研究の結果は, 性的捕食者, 攻撃的あるいは有害なコンテンツ, ヘイトスピーチ, 差別的言語をオンラインディスカッションやコメントでフラグ付けし, 尊敬すべきインターネットやデジタルコミュニティを維持するために, 現実の応用(英語以外の言語も)に実装できることを示唆している。
さらに、感情分析、スパムおよびフィッシング検出、法的文書のソート、偽ニュース検出、言語識別、ユーザの意図認識、テキストベースの製品分類、医療記録分析、履歴書スクリーニングといった他の潜在的な応用でテキスト分類問題を解決するためにも利用できる。
関連論文リスト
- Enhanced Online Grooming Detection Employing Context Determination and Message-Level Analysis [2.424910201171407]
オンライングルーミング(オンライングルーミング、OG)は、ソーシャルメディアやメッセージプラットフォーム上での子供の脆弱性を危うくする詐欺的手法を用いて、オンラインで子どもが優先的に直面している一般的な脅威である。
既存のソリューションは、リアルタイムのOG検出に効果的に対応しない児童虐待メディアの署名分析に重点を置いている。
本稿では,OG攻撃が複雑であり,大人と子供のコミュニケーションパターンの特定が必要であることを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:37:34Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - On the application of Large Language Models for language teaching and
assessment technology [18.735612275207853]
我々は,AIによる言語教育とアセスメントシステムに大規模言語モデルを導入する可能性を検討する。
より大きな言語モデルは、テキスト生成における以前のモデルよりも改善されていることがわかった。
自動階調と文法的誤り訂正において、よく知られたベンチマークで進捗が確認されたタスクについては、初期の調査では、彼ら自身の大きな言語モデルが最先端の結果を改善していないことが示されている。
論文 参考訳(メタデータ) (2023-07-17T11:12:56Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Joint Modelling of Emotion and Abusive Language Detection [26.18171134454037]
マルチタスク学習フレームワークを用いて,感情と虐待的言語検出の最初のジョイントモデルを提案する。
その結果、感情的特徴を取り入れることで、データセット間での悪用検出性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-05-28T14:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。