論文の概要: KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased
Speech in Real-World Online Services
- arxiv url: http://arxiv.org/abs/2310.04313v2
- Date: Sun, 12 Nov 2023 17:10:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:28:12.842687
- Title: KoMultiText: Large-Scale Korean Text Dataset for Classifying Biased
Speech in Real-World Online Services
- Title(参考訳): KoMultiText: リアルタイムオンラインサービスにおけるバイアス音声分類のための大規模韓国語テキストデータセット
- Authors: Dasol Choi, Jooyoung Song, Eunsun Lee, Jinwoo Seo, Heejune Park,
Dongbin Na
- Abstract要約: KoMultiText"は、韓国の有名なSNSプラットフォームから収集された、包括的で大規模なデータセットである。
本手法は,多種多様な分類課題にまたがる人間レベルの精度を,様々な指標で測定する。
私たちの研究は、現実のヘイトスピーチとバイアス軽減のためのソリューションを提供し、オンラインコミュニティの健康改善に直接貢献します。
- 参考スコア(独自算出の注目度): 5.03606775899383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growth of online services, the need for advanced text classification
algorithms, such as sentiment analysis and biased text detection, has become
increasingly evident. The anonymous nature of online services often leads to
the presence of biased and harmful language, posing challenges to maintaining
the health of online communities. This phenomenon is especially relevant in
South Korea, where large-scale hate speech detection algorithms have not yet
been broadly explored. In this paper, we introduce "KoMultiText", a new
comprehensive, large-scale dataset collected from a well-known South Korean SNS
platform. Our proposed dataset provides annotations including (1) Preferences,
(2) Profanities, and (3) Nine types of Bias for the text samples, enabling
multi-task learning for simultaneous classification of user-generated texts.
Leveraging state-of-the-art BERT-based language models, our approach surpasses
human-level accuracy across diverse classification tasks, as measured by
various metrics. Beyond academic contributions, our work can provide practical
solutions for real-world hate speech and bias mitigation, contributing directly
to the improvement of online community health. Our work provides a robust
foundation for future research aiming to improve the quality of online
discourse and foster societal well-being. All source codes and datasets are
publicly accessible at https://github.com/Dasol-Choi/KoMultiText.
- Abstract(参考訳): オンラインサービスの普及に伴い,感情分析や偏りのあるテキスト検出といった高度なテキスト分類アルゴリズムの必要性が高まっている。
オンラインサービスの匿名性は、しばしば偏りのある有害な言語の存在につながり、オンラインコミュニティの健全性を維持するための課題となる。
この現象は韓国では特に重要であり、大規模なヘイトスピーチ検出アルゴリズムはまだ広く研究されていない。
本稿では,韓国の著名なsnsプラットフォームから収集した新しい総合的大規模データセットである「コマルチテキスト」を紹介する。
提案するデータセットは,(1)選好,(2)傾向,(3)テキストサンプルに対する9種類のバイアスを含むアノテーションを提供し,ユーザ生成テキストの同時分類のためのマルチタスク学習を可能にする。
最先端のbertベースの言語モデルを活用することで,多様な分類タスクにおける人間レベルの精度を,さまざまな指標で測定した。
学術的な貢献以外にも、我々の研究は現実のヘイトスピーチとバイアス軽減のための実践的なソリューションを提供し、オンラインコミュニティの健康改善に直接貢献する。
本研究は,オンライン談話の質向上と社会福祉の育成を目的とした今後の研究の基盤となる。
すべてのソースコードとデータセットはhttps://github.com/Dasol-Choi/KoMultiTextで公開されている。
関連論文リスト
- A New Korean Text Classification Benchmark for Recognizing the Political
Intents in Online Newspapers [6.633601941627045]
本稿では,様々な記事を含む韓国語テキスト分類データセットを提案する。
我々のデータセットには、韓国で最も代表的な新聞組織の6つの政治部門から、政治的意図を含む可能性のある12,000のニュース記事が含まれています。
我々の知る限り、我々の論文は韓国で最も大規模なニュースデータセットであり、長いテキストとマルチタスクの分類問題に対処する。
論文 参考訳(メタデータ) (2023-11-03T04:59:55Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Fine-Tuning Approach for Arabic Offensive Language Detection System:
BERT-Based Model [0.0]
本研究では,アラビア語攻撃言語データセットにおける微調整の効果について検討した。
我々は4つのデータセットを個別に組み合わせて、オンラインアラビア攻撃コンテンツに関する知識を得るために複数の分類器を開発する。
論文 参考訳(メタデータ) (2022-02-07T17:26:35Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language
Generation [42.34923623457615]
Open-Ended Language Generationデータセットのバイアスは23,679の英語テキスト生成プロンプトで構成されている。
3つの人気のある言語モデルから生成されたテキストを調べると、これらのモデルの大半は、人によるウィキペディアのテキストよりも大きな社会的バイアスを示すことが明らかになっている。
論文 参考訳(メタデータ) (2021-01-27T22:07:03Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - Improving Yor\`ub\'a Diacritic Restoration [3.301896537513352]
ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。
ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
論文 参考訳(メタデータ) (2020-03-23T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。