論文の概要: Too good to be true? Predicting author profiles from abusive language
- arxiv url: http://arxiv.org/abs/2009.01126v2
- Date: Thu, 3 Sep 2020 13:23:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:00:54.039622
- Title: Too good to be true? Predicting author profiles from abusive language
- Title(参考訳): 本当は良くないの?
乱用言語からの著者プロファイルの予測
- Authors: Isabelle van der Vegt, Bennett Kleinberg, Paul Gill
- Abstract要約: 本研究では,著者集団と虐待と正規言語との統計的関係について検討する。
性格特性は実際の価値の15%以内に予測され、年齢は10年の誤差で予測され、性別は70%のケースで正しく分類された。
- 参考スコア(独自算出の注目度): 0.5650647159993238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The problem of online threats and abuse could potentially be mitigated with a
computational approach, where sources of abuse are better understood or
identified through author profiling. However, abusive language constitutes a
specific domain of language for which it has not yet been tested whether
differences emerge based on a text author's personality, age, or gender. This
study examines statistical relationships between author demographics and
abusive vs normal language, and performs prediction experiments for
personality, age, and gender. Although some statistical relationships were
established between author characteristics and language use, these patterns did
not translate to high prediction performance. Personality traits were predicted
within 15% of their actual value, age was predicted with an error margin of 10
years, and gender was classified correctly in 70% of the cases. These results
are poor when compared to previous research on author profiling, therefore we
urge caution in applying this within the context of abusive language and threat
assessment.
- Abstract(参考訳): オンラインの脅威や悪用に関する問題は、著者のプロファイリングによって悪用源をよりよく理解したり特定したりする計算手法によって軽減される可能性がある。
しかし、乱用言語は特定の言語領域を構成しており、テキスト作者の性格、年齢、性別によって違いが生じるかどうかはまだテストされていない。
本研究は,著者層と虐待と正常言語の間の統計的関係を調査し,性格・年齢・性別の予測実験を行う。
著者の特徴と言語使用の統計的関係は確立されたが,これらのパターンは高い予測性能に変換されなかった。
性格特性は実際の価値の15%以内に予測され、年齢は10年の誤差で予測され、性別は70%のケースで正しく分類された。
これらの結果は、著者のプロファイリングに関するこれまでの研究と比較すると貧弱であり、虐待的言語と脅威評価の文脈でこれを適用することに注意を促している。
関連論文リスト
- On the Proper Treatment of Tokenization in Psycholinguistics [53.960910019072436]
論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。
興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
論文 参考訳(メタデータ) (2024-10-03T17:18:03Z) - Do GPT Language Models Suffer From Split Personality Disorder? The Advent Of Substrate-Free Psychometrics [1.1172147007388977]
我々は,9言語で同一のパーソナリティ質問票を用いたアート言語モデルの現状について述べる。
本研究は,言語間不安定性と言語内不安定性の両方を示唆し,現在の言語モデルが一貫した中核的性格を発達しないことを示す。
これは、これらの基礎モデルに基づく人工知能システムの安全でない振る舞いにつながる可能性がある。
論文 参考訳(メタデータ) (2024-08-14T08:53:00Z) - Examining Temporal Bias in Abusive Language Detection [3.465144840147315]
乱用言語を自動的に検出する機械学習モデルが開発されている。
これらのモデルは、時間とともに話題、言語の使用、社会的規範が変化する現象である時間的偏見に悩まされる。
本研究では,多言語にわたる虐待的言語検出における時間的バイアスの性質と影響について検討した。
論文 参考訳(メタデータ) (2023-09-25T13:59:39Z) - Testing the Predictions of Surprisal Theory in 11 Languages [77.45204595614]
本研究では,11言語における副次的時間と読解時間の関係について検討する。
より多様な言語に焦点をあてることで、これらの結果は、情報理論と言語間のインクリメンタル言語処理の最も堅牢なリンクを提供すると論じる。
論文 参考訳(メタデータ) (2023-07-07T15:37:50Z) - Naturalistic Causal Probing for Morpho-Syntax [76.83735391276547]
スペインにおける実世界のデータに対する入力レベルの介入に対する自然主義的戦略を提案する。
提案手法を用いて,共同設立者から文章中の形態・症状の特徴を抽出する。
本研究では,事前学習したモデルから抽出した文脈化表現に対する性別と数字の因果効果を解析するために,本手法を適用した。
論文 参考訳(メタデータ) (2022-05-14T11:47:58Z) - Data Bootstrapping Approaches to Improve Low Resource Abusive Language
Detection for Indic Languages [5.51252705016179]
Indic言語における多言語乱用音声の大規模分析を実演する。
本研究では,異なる言語間伝達機構について検討し,様々な多言語モデルによる虐待的音声検出の性能について検討する。
論文 参考訳(メタデータ) (2022-04-26T18:56:01Z) - The World of an Octopus: How Reporting Bias Influences a Language
Model's Perception of Color [73.70233477125781]
報告バイアスがテキストのみのトレーニングに悪影響を及ぼし、本質的に制限されていることを示す。
次に、マルチモーダルモデルが視覚的トレーニングを利用してこれらの効果を緩和できることを実証する。
論文 参考訳(メタデータ) (2021-10-15T16:28:17Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Impact of Gender Debiased Word Embeddings in Language Modeling [0.0]
性別、人種、社会的バイアスは、自然言語処理の適用における不公平の明白な例として検出されている。
近年の研究では、トレーニングで使用される人為的なデータが偏見を生じさせる要因であることが示されている。
現在のアルゴリズムは、データからのバイアスを増幅することも証明されている。
論文 参考訳(メタデータ) (2021-05-03T14:45:10Z) - Inferred vs traditional personality assessment: are we predicting the
same thing? [0.0]
機械学習の手法は、デジタル記録から心理的特徴を予測するために研究者によって広く使われている。
自動パーソナリティ推定が元の特性の性質を保持するかどうかを調べるために、220の最近の記事をレビューしました。
論文 参考訳(メタデータ) (2021-03-17T13:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。