論文の概要: No Time Like the Present: Effects of Language Change on Automated
Comment Moderation
- arxiv url: http://arxiv.org/abs/2207.04003v1
- Date: Fri, 8 Jul 2022 16:39:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:00:36.497410
- Title: No Time Like the Present: Effects of Language Change on Automated
Comment Moderation
- Title(参考訳): 現在のような時間がない: 自動コメントモデレーションにおける言語変化の影響
- Authors: Lennart Justen, Kilian M\"uller, Marco Niemann, J\"org Becker
- Abstract要約: オンラインヘイトの拡大は、コメント欄を主催する新聞にとって重大な問題となっている。
自動乱用言語検出に機械学習と自然言語処理を使うことへの関心が高まっている。
我々は、ナイーブなML技術で訓練された分類器が将来のデータで過小評価されることを、ドイツの新聞のコメントデータセットを使って示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spread of online hate has become a significant problem for newspapers
that host comment sections. As a result, there is growing interest in using
machine learning and natural language processing for (semi-) automated abusive
language detection to avoid manual comment moderation costs or having to shut
down comment sections altogether. However, much of the past work on abusive
language detection assumes that classifiers operate in a static language
environment, despite language and news being in a state of constant flux. In
this paper, we show using a new German newspaper comments dataset that the
classifiers trained with naive ML techniques like a random-test train split
will underperform on future data, and that a time stratified evaluation split
is more appropriate. We also show that classifier performance rapidly degrades
when evaluated on data from a different period than the training data. Our
findings suggest that it is necessary to consider the temporal dynamics of
language when developing an abusive language detection system or risk deploying
a model that will quickly become defunct.
- Abstract(参考訳): オンライン嫌悪の拡散は、コメントセクションをホストする新聞にとって重大な問題となっている。
その結果、手動によるコメントモデレーションコストを回避するため、あるいはコメントセクションを完全に閉鎖するために、(半)自動虐待言語検出に機械学習と自然言語処理を使用することへの関心が高まっている。
しかし、過去の乱用言語検出の研究の多くは、言語やニュースが一定の流動状態にあるにもかかわらず、分類器が静的言語環境で動作していると仮定している。
本稿では、ランダムテストトレインスプリットのようなナイーブml技術で訓練された分類器が将来のデータに過小評価され、時間階層化評価スプリットがより適切であることを示す。
また,学習データと異なる期間のデータから評価すると,分類器の性能が急速に低下することを示す。
本研究は, 乱用言語検出システムを開発する場合や, 急速に消滅するモデル展開のリスクについて, 言語の時間的ダイナミクスを検討する必要があることを示唆する。
関連論文リスト
- MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - The Gift of Feedback: Improving ASR Model Quality by Learning from User
Corrections through Federated Learning [20.643270151774182]
フェデレートラーニング(FL)を通じてデバイス上でのユーザ修正から継続的に学習することを目指す。
我々は、モデルがこれまで遭遇していなかった新しい用語をターゲットとして、長い尾の単語を学習し、破滅的な忘れ事をする手法を探究する。
実験により,提案手法は,言語分布全体の品質を保ちながら,新しい用語のモデル認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-29T21:04:10Z) - Examining Temporal Bias in Abusive Language Detection [3.465144840147315]
乱用言語を自動的に検出する機械学習モデルが開発されている。
これらのモデルは、時間とともに話題、言語の使用、社会的規範が変化する現象である時間的偏見に悩まされる。
本研究では,多言語にわたる虐待的言語検出における時間的バイアスの性質と影響について検討した。
論文 参考訳(メタデータ) (2023-09-25T13:59:39Z) - Automated stance detection in complex topics and small languages: the
challenging case of immigration in polarizing news media [0.0]
本稿では,大規模言語モデルによる自動姿勢検出への適用性について検討する。
形態学的に複雑で、低資源の言語であり、社会文化的に複雑な話題である移民を含んでいる。
このケースでアプローチがうまくいけば、要求の少ないシナリオでも同じように、あるいはより良く実行されることが期待できる。
論文 参考訳(メタデータ) (2023-05-22T13:56:35Z) - Analyzing and Reducing the Performance Gap in Cross-Lingual Transfer
with Fine-tuning Slow and Fast [50.19681990847589]
既存の研究では、1つの(ソース)言語で微調整された多言語事前学習言語モデルが、非ソース言語の下流タスクでもうまく機能していることが示されている。
本稿では、微調整プロセスを分析し、パフォーマンスギャップがいつ変化するかを分析し、ネットワークの重みが全体のパフォーマンスに最も影響するかを特定する。
論文 参考訳(メタデータ) (2023-05-19T06:04:21Z) - Improving Generalizability in Implicitly Abusive Language Detection with
Concept Activation Vectors [8.525950031069687]
一般乱用言語分類器は、明らかに乱用発話を検出するのにかなり信頼性が高い傾向にあるが、より微妙で暗黙的な新しいタイプの乱用を検出できないことを示す。
本稿では,コンピュータビジョンからのTCAV(Testing Concept Activation Vector)法に基づく解釈可能性手法を提案する。
論文 参考訳(メタデータ) (2022-04-05T14:52:18Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - How Context Affects Language Models' Factual Predictions [134.29166998377187]
検索システムからの情報を学習済みの言語モデルと純粋に教師なしの方法で統合する。
この方法で事前学習された言語モデルを拡張することで、性能が劇的に向上し、教師なしにもかかわらず、結果として得られるシステムは、教師なしの機械読解ベースラインと競合する、と報告する。
論文 参考訳(メタデータ) (2020-05-10T09:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。