論文の概要: Abusive Span Detection for Vietnamese Narrative Texts
- arxiv url: http://arxiv.org/abs/2312.07831v1
- Date: Wed, 13 Dec 2023 01:36:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:55:03.425754
- Title: Abusive Span Detection for Vietnamese Narrative Texts
- Title(参考訳): ベトナムのナラティブテキストに対する乱用スパン検出
- Authors: Nhu-Thanh Nguyen, Khoa Thi-Kim Phan, Duc-Vu Nguyen, Ngan Luu-Thuy
Nguyen
- Abstract要約: 身体的、心理的、言葉的、性的、経済的、文化的といった様々な形態の虐待は、精神健康に悪影響を及ぼす。
ベトナムのナラティブテキスト中の乱用コンテンツを検出するために,人手によるベトナム語データセットを構築して貢献することを目的としている。
- 参考スコア(独自算出の注目度): 0.7032245866317618
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Abuse in its various forms, including physical, psychological, verbal,
sexual, financial, and cultural, has a negative impact on mental health.
However, there are limited studies on applying natural language processing
(NLP) in this field in Vietnam. Therefore, we aim to contribute by building a
human-annotated Vietnamese dataset for detecting abusive content in Vietnamese
narrative texts. We sourced these texts from VnExpress, Vietnam's popular
online newspaper, where readers often share stories containing abusive content.
Identifying and categorizing abusive spans in these texts posed significant
challenges during dataset creation, but it also motivated our research. We
experimented with lightweight baseline models by freezing PhoBERT and
XLM-RoBERTa and using their hidden states in a BiLSTM to assess the complexity
of the dataset. According to our experimental results, PhoBERT outperforms
other models in both labeled and unlabeled abusive span detection tasks. These
results indicate that it has the potential for future improvements.
- Abstract(参考訳): 身体的、心理的、言葉的、性的、経済的、文化的といった様々な形態での虐待は精神健康に悪影響を及ぼす。
しかし、ベトナムのこの分野には自然言語処理(NLP)の適用に関する限られた研究がある。
そこで本研究では,ベトナムのナラティブテキスト中の乱用内容を検出するための,人手によるベトナム語データセットの構築を目標とする。
ベトナムで人気のあるオンライン新聞「VnExpress」からこれらのテキストを入手した。
これらのテキスト中の乱用範囲の特定と分類は、データセット作成において重大な課題となったが、これも研究の動機となった。
PhoBERT と XLM-RoBERTa を凍結し,BiLSTM に隠された状態を用いてデータセットの複雑さを評価することにより,軽量なベースラインモデル実験を行った。
実験結果によると、PhoBERTはラベル付きとラベルなしの両方で他のモデルよりも優れている。
これらの結果は将来の改善の可能性を示している。
関連論文リスト
- A study of Vietnamese readability assessing through semantic and statistical features [0.0]
本稿では,テキストの可読性を評価するための統計的および意味的アプローチを統合する新しいアプローチを提案する。
我々の研究はベトナムのテキスト可読性データセット(ViRead)、OneStop English、RASの3つの異なるデータセットを利用した。
SVM(Support Vector Machine)、ランダムフォレスト(Random Forest)、エクストラツリー(Extra Trees)など、さまざまな機械学習モデルを用いて実験を行った。
論文 参考訳(メタデータ) (2024-11-07T14:54:42Z) - Vietnamese AI Generated Text Detection [0.0]
我々は、ベトナムのエッセイの6.800のサンプルと、人間によって書かれた3.400のサンプルと、AIによって生成された残りのサンプルからなるViDetectというデータセットを提示する。
ViT5, BartPho, PhoBERT, mDeberta V3, mBERTなどの最先端手法を用いて評価を行った。
この研究は、AIによるテキスト検出の今後の進歩の基礎を定め、自然言語処理分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T07:12:22Z) - OffensiveLang: A Community Based Implicit Offensive Language Dataset [5.813922783967869]
ヘイトスピーチや攻撃的な言語は、明示的な形と暗黙的な形の両方に存在する。
OffensiveLangはコミュニティベースの暗黙的な攻撃的な言語データセットである。
本稿では、暗黙の攻撃的言語を効果的に生成するプロンプトベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-04T20:34:58Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Survey of Hallucination in Natural Language Generation [69.9926849848132]
近年,シーケンス間深層学習技術の発展により,自然言語生成(NLG)は指数関数的に向上している。
深層学習に基づく生成は意図しないテキストを幻覚させる傾向があるため、システム性能は低下する。
この調査は、NLGにおける幻覚テキストの課題に取り組む研究者の協力活動を促進するのに役立つ。
論文 参考訳(メタデータ) (2022-02-08T03:55:01Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Ground-Truth, Whose Truth? -- Examining the Challenges with Annotating
Toxic Text Datasets [26.486492641924226]
本研究は,本質的な問題に光を当てることを目的として,選択された有毒なテキストデータセットについて検討する。
3つの有毒テキストデータセットからサンプルを再アノテートし、有毒テキストサンプルにアノテートするマルチラベルアプローチがデータセットの品質向上に役立ちます。
論文 参考訳(メタデータ) (2021-12-07T06:58:22Z) - The World of an Octopus: How Reporting Bias Influences a Language
Model's Perception of Color [73.70233477125781]
報告バイアスがテキストのみのトレーニングに悪影響を及ぼし、本質的に制限されていることを示す。
次に、マルチモーダルモデルが視覚的トレーニングを利用してこれらの効果を緩和できることを実証する。
論文 参考訳(メタデータ) (2021-10-15T16:28:17Z) - Sentiment Analysis Based on Deep Learning: A Comparative Study [69.09570726777817]
世論の研究は我々に貴重な情報を提供することができる。
感情分析の効率性と正確性は、自然言語処理で直面する課題によって妨げられている。
本稿では、感情分析の問題を解決するためにディープラーニングを用いた最新の研究をレビューする。
論文 参考訳(メタデータ) (2020-06-05T16:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。