論文の概要: CoRAL: a Context-aware Croatian Abusive Language Dataset
- arxiv url: http://arxiv.org/abs/2211.06053v1
- Date: Fri, 11 Nov 2022 08:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:15:14.418633
- Title: CoRAL: a Context-aware Croatian Abusive Language Dataset
- Title(参考訳): coral: コンテキスト対応のクロアチア語乱用言語データセット
- Authors: Ravi Shekhar, Mladen Karan, Matthew Purver
- Abstract要約: 本研究では,地域・グローバルな文脈に依存する暗黙の現象を包含する言語と文化的に認識されたクロアチアの虐待データセットを提案する。
コメントが明示的でない場合、現在のモデルは劣化し、コメントを解釈するために言語スキルと文脈知識が必要である場合、さらに劣化することを示す。
- 参考スコア(独自算出の注目度): 7.536701073553703
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In light of unprecedented increases in the popularity of the internet and
social media, comment moderation has never been a more relevant task.
Semi-automated comment moderation systems greatly aid human moderators by
either automatically classifying the examples or allowing the moderators to
prioritize which comments to consider first. However, the concept of
inappropriate content is often subjective, and such content can be conveyed in
many subtle and indirect ways. In this work, we propose CoRAL -- a language and
culturally aware Croatian Abusive dataset covering phenomena of implicitness
and reliance on local and global context. We show experimentally that current
models degrade when comments are not explicit and further degrade when language
skill and context knowledge are required to interpret the comment.
- Abstract(参考訳): インターネットやソーシャルメディアの人気が前例のない高まりに照らして、コメントのモデレーションは、これまで以上に重要なタスクではなかった。
半自動コメントモデレーションシステムは、例を自動分類するか、どのコメントを最初に検討するかをモデレーターに優先させることによって、人間のモデレーターを大いに助ける。
しかし、不適切な内容の概念はしばしば主観的であり、そのような内容は多くの微妙で間接的な方法で伝えられる。
本研究では,クロアチアの言語と文化的に意識された虐待的データセットであるCoRALを提案する。
コメントが明示的でない場合、現在のモデルは劣化し、コメントを解釈するために言語スキルと文脈知識を必要とする場合、さらに劣化することを示す。
関連論文リスト
- Can Language Model Moderators Improve the Health of Online Discourse? [26.191337231826246]
我々は,モデレーション文献に基づく会話モデレーションの有効性の体系的定義を確立する。
本研究では,人間の介入とは無関係にモデルのモデレーション能力を評価するための総合的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-16T11:14:22Z) - Why Should This Article Be Deleted? Transparent Stance Detection in
Multilingual Wikipedia Editor Discussions [47.944081120226905]
ウィキペディア編集者の議論の新たなデータセットを3言語で構築する。
データセットには、エディタのスタンス(keep、delete、merge、コメント)と、記述された理由、編集決定ごとにコンテンツモデレーションポリシーが含まれている。
我々は、姿勢とそれに対応する理由(政治)を高い精度で予測し、意思決定プロセスに透明性を加えることを実証する。
論文 参考訳(メタデータ) (2023-10-09T15:11:02Z) - ViCo: Engaging Video Comment Generation with Human Preference Rewards [68.50351391812723]
ビデオコメント生成の課題に対処するために,3つの新しいデザインのViCoを提案する。
コメントのエンゲージメントを定量化するために、各コメントが受け取る「いいね!
コメントのエンゲージメントを自動的に評価するために、我々は報酬モデルをトレーニングし、その判断を上記のプロキシに合わせる。
論文 参考訳(メタデータ) (2023-08-22T04:01:01Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Enriching Abusive Language Detection with Community Context [0.3708656266586145]
叙述表現の使用は、良心的または活発な権限を与えることができる。
乱用検出のモデルは、これらの表現を軽蔑的で不注意に、疎外されたグループが持つ生産的な会話を検閲するものとして誤分類する。
本稿では,コミュニティの文脈が乱用言語検出における分類結果をどのように改善するかを強調した。
論文 参考訳(メタデータ) (2022-06-16T20:54:02Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Abusive Language Detection in Heterogeneous Contexts: Dataset Collection
and the Role of Supervised Attention [9.597481034467915]
乱用言語は、オンラインソーシャルプラットフォームにおいて大きな問題である。
YouTubeから11,000以上のコメントで、乱用言語の注釈付きデータセットを提供する。
本稿では,教師付きアテンション機構を用いて乱用コンテンツを検出し,分類するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-24T06:50:19Z) - Detecting Inappropriate Messages on Sensitive Topics that Could Harm a
Company's Reputation [64.22895450493729]
カメや釣りの穏やかな議論は、政治や性的マイノリティの議論よりも不適切な有毒な対話を後押しします。
我々は,不適切で有害なメッセージを生み出す可能性のある,センシティブなトピックのセットを定義し,データセットの収集とラベル付けの方法論を記述した。
論文 参考訳(メタデータ) (2021-03-09T10:50:30Z) - Examining Racial Bias in an Online Abuse Corpus with Structural Topic
Modeling [0.30458514384586405]
我々は、ソーシャルメディア投稿における人種的偏見を調べるために、構造的トピックモデリングを用いる。
我々は、アフリカ系アメリカ人の英語で書かれたツイートの予測確率を示す追加機能を追加することにより、乱用言語データセットを増強する。
論文 参考訳(メタデータ) (2020-05-26T21:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。