論文の概要: Context-Aware Content Moderation for German Newspaper Comments
- arxiv url: http://arxiv.org/abs/2505.20963v1
- Date: Tue, 27 May 2025 09:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.561042
- Title: Context-Aware Content Moderation for German Newspaper Comments
- Title(参考訳): ドイツ新聞コメントにおける文脈対応コンテンツモデレーション
- Authors: Felix Krejca, Tobias Kietreiber, Alexander Buchelt, Sebastian Neumaier,
- Abstract要約: 本稿では,ドイツの新聞掲示板における自動コンテンツモデレーションのためのバイナリ分類モデルの開発と評価を行う。
LSTM, CNN, ChatGPT-3.5 Turbo を用いて, オーストリアの新聞Der Standard の 100 Million Posts Corpus を利用して, 文脈認識モデルの影響を評価する。
その結果、CNNとLSTMモデルは文脈情報から恩恵を受け、最先端のアプローチと競合することを示した。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The increasing volume of online discussions requires advanced automatic content moderation to maintain responsible discourse. While hate speech detection on social media is well-studied, research on German-language newspaper forums remains limited. Existing studies often neglect platform-specific context, such as user history and article themes. This paper addresses this gap by developing and evaluating binary classification models for automatic content moderation in German newspaper forums, incorporating contextual information. Using LSTM, CNN, and ChatGPT-3.5 Turbo, and leveraging the One Million Posts Corpus from the Austrian newspaper Der Standard, we assess the impact of context-aware models. Results show that CNN and LSTM models benefit from contextual information and perform competitively with state-of-the-art approaches. In contrast, ChatGPT's zero-shot classification does not improve with added context and underperforms.
- Abstract(参考訳): オンライン討論の量の増加には、責任ある談話を維持するために高度な自動コンテンツモデレーションが必要である。
ソーシャルメディアでのヘイトスピーチ検出はよく研究されているが、ドイツ語新聞のフォーラムの研究は限られている。
既存の研究は、ユーザ履歴や記事のテーマなど、プラットフォーム固有のコンテキストを無視することが多い。
本稿では,ドイツの新聞社における自動コンテンツモデレーションのためのバイナリ分類モデルの開発と評価を行い,文脈情報を取り入れることで,このギャップに対処する。
LSTM, CNN, ChatGPT-3.5 Turbo を用いて, オーストリアの新聞Der Standard の 100 Million Posts Corpus を利用して, 文脈認識モデルの影響を評価する。
その結果、CNNとLSTMモデルは文脈情報から恩恵を受け、最先端のアプローチと競合することを示した。
対照的に、ChatGPTのゼロショット分類は、追加のコンテキストとアンダーパフォーマンスでは改善されない。
関連論文リスト
- QiBERT -- Classifying Online Conversations Messages with BERT as a Feature [0.0]
本稿では,ポルトガルの学校におけるオンライン社会会話から得られたデータを用いて行動傾向を観察することを目的とする。
このプロジェクトでは、BERTベースのモデルを通じて、最先端(SoA)機械学習アルゴリズムと手法を使用して、発話が議論の対象の内外かどうかを分類する。
論文 参考訳(メタデータ) (2024-09-09T11:38:06Z) - Is Context Helpful for Chat Translation Evaluation? [23.440392979857247]
我々は、機械翻訳チャットの品質を評価するために、既存の文レベル自動メトリクスのメタ評価を行う。
参照なしのメトリクスは、特に英語外設定で翻訳品質を評価する場合、参照ベースのメトリクスよりも遅れていることが分かりました。
大規模言語モデルを用いたバイリンガル文脈を用いた新しい評価指標 Context-MQM を提案する。
論文 参考訳(メタデータ) (2024-03-13T07:49:50Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection [83.3580786484122]
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
論文 参考訳(メタデータ) (2022-01-25T17:20:04Z) - Not All Comments are Equal: Insights into Comment Moderation from a
Topic-Aware Model [8.28576076054666]
トピックモデルからのセマンティックな特徴を分類決定に取り入れ、トピック認識モデルを作成する。
この結果から,トピック情報はモデルの性能を改善し,正しい出力に対する信頼性を高め,モデルの出力を理解する上で有効であることがわかった。
論文 参考訳(メタデータ) (2021-09-21T08:57:17Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Stay on Topic, Please: Aligning User Comments to the Content of a News
Article [7.3203631241415055]
新たな記事ベースに投稿されたユーザコメントとその内容との整合性を分類する分類アルゴリズムを提案する。
このアライメントは、コンテンツ、議論のエンティティ、トピック間の類似性に基づいて、ユーザーコメントと記事とを一致させようとする。
分類作業の難易度を理解するために,人間のラベル付け性能を評価するためのユーザ調査を行う。
論文 参考訳(メタデータ) (2021-03-03T18:29:00Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。