論文の概要: Linguistic Fingerprints of Internet Censorship: the Case of SinaWeibo
- arxiv url: http://arxiv.org/abs/2001.08845v1
- Date: Thu, 23 Jan 2020 23:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-07 13:13:01.740723
- Title: Linguistic Fingerprints of Internet Censorship: the Case of SinaWeibo
- Title(参考訳): インターネット検閲の言語的フィンガープリント--SinaWeiboを事例として
- Authors: Kei Yin Ng, Anna Feldman, Jing Peng
- Abstract要約: 本稿では,ブログ投稿の言語的要素がブログ投稿者の検閲の可能性に与える影響について検討する。
我々は、ブログ投稿が検閲されるかどうかを予測するために、専門家でない人間を著しく上回る分類器を構築する。
本研究は、ソーシャルメディア投稿の言語特性を利用して検閲されるかどうかを自動的に予測できることを示唆している。
- 参考スコア(独自算出の注目度): 4.544151613454639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies how the linguistic components of blogposts collected from
Sina Weibo, a Chinese microblogging platform, might affect the blogposts'
likelihood of being censored. Our results go along with King et al. (2013)'s
Collective Action Potential (CAP) theory, which states that a blogpost's
potential of causing riot or assembly in real life is the key determinant of it
getting censored. Although there is not a definitive measure of this construct,
the linguistic features that we identify as discriminatory go along with the
CAP theory. We build a classifier that significantly outperforms non-expert
humans in predicting whether a blogpost will be censored. The crowdsourcing
results suggest that while humans tend to see censored blogposts as more
controversial and more likely to trigger action in real life than the
uncensored counterparts, they in general cannot make a better guess than our
model when it comes to `reading the mind' of the censors in deciding whether a
blogpost should be censored. We do not claim that censorship is only determined
by the linguistic features. There are many other factors contributing to
censorship decisions. The focus of the present paper is on the linguistic form
of blogposts. Our work suggests that it is possible to use linguistic
properties of social media posts to automatically predict if they are going to
be censored.
- Abstract(参考訳): 本稿は,中国のマイクロブログプラットフォームであるSina Weiboから収集したブログの言語的構成要素が,ブログの検閲の可能性に与える影響について考察する。
我々の結果は、King et al. (2013) の Collective Action potential (CAP) 理論と一致し、ブログ投稿者が実生活で暴動や集会を起こす可能性について、それが検閲される重要な決定要因であると述べている。
この構成には決定的な尺度はないが、差別的特徴として認識される言語的特徴はCAP理論と一致している。
我々は、ブログ投稿が検閲されるかどうかを予測するために、専門家でない人間を著しく上回る分類器を構築する。
クラウドソーシングの結果は、検閲されたブログを、検閲されていないブログよりもリアルに行動を起こす可能性が高く、議論の的になっているが、一般的には、検閲されたブログを検閲すべきかどうかを決める上で、検閲の「心を読む」ということに関して、我々のモデルよりも良い推測をすることができないことを示唆している。
我々は検閲が言語的特徴によってのみ決定されると主張するわけではない。
検閲決定に寄与する要因は他にもたくさんある。
本論文の焦点は,ブログの言語形式である。
本研究は、ソーシャルメディア投稿の言語特性を利用して検閲されるかどうかを自動的に予測できることを示唆している。
関連論文リスト
- Why Should This Article Be Deleted? Transparent Stance Detection in
Multilingual Wikipedia Editor Discussions [47.944081120226905]
ウィキペディア編集者の議論の新たなデータセットを3言語で構築する。
データセットには、エディタのスタンス(keep、delete、merge、コメント)と、記述された理由、編集決定ごとにコンテンツモデレーションポリシーが含まれている。
我々は、姿勢とそれに対応する理由(政治)を高い精度で予測し、意思決定プロセスに透明性を加えることを実証する。
論文 参考訳(メタデータ) (2023-10-09T15:11:02Z) - How We Express Ourselves Freely: Censorship, Self-censorship, and
Anti-censorship on a Chinese Social Media [4.408128846525362]
我々は検閲と自己検閲の指標を特定し、影響要因を見つけ、それらの関係を測定するための調停モデルを構築した。
これらの知見に基づき、民主的なソーシャルメディアデザインと将来の検閲研究の意義について論じる。
論文 参考訳(メタデータ) (2022-11-24T18:28:16Z) - The State of Profanity Obfuscation in Natural Language Processing [29.95449849179384]
難解な発言は、特に非ネイティブな話者にとって、コンテンツの評価を困難にしている。
代名詞難読化プロセスを標準化するPythonモジュールを備えたPrOfという多言語コミュニティリソースを提案する。
論文 参考訳(メタデータ) (2022-10-14T07:45:36Z) - Analyzing the Intensity of Complaints on Social Media [55.140613801802886]
テキストからの苦情の強度を測定する計算言語学における最初の研究について述べる。
私たちは中国のソーシャルメディアプラットフォームであるWeiboからの苦情に関する3,103件の投稿を含む最初の中国のデータセットを作成しました。
平均二乗誤差が0.11となる計算モデルにより,苦情強度を正確に推定できることを示す。
論文 参考訳(メタデータ) (2022-04-20T10:15:44Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - COLD: A Benchmark for Chinese Offensive Language Detection [54.60909500459201]
COLDatasetは、37kの注釈付き文を持つ中国の攻撃的言語データセットである。
また、人気のある中国語モデルの出力攻撃性を研究するために、textscCOLDetectorを提案する。
我々の資源と分析は、中国のオンラインコミュニティを解毒し、生成言語モデルの安全性を評価することを目的としている。
論文 参考訳(メタデータ) (2022-01-16T11:47:23Z) - Annotators with Attitudes: How Annotator Beliefs And Identities Bias
Toxic Language Detection [75.54119209776894]
本研究では,アノテータのアイデンティティ(誰)と信念(なぜ)が有害な言語アノテーションに与える影響について検討する。
我々は、アンチブラック言語、アフリカ系アメリカ人の英語方言、俗語という3つの特徴を持つポストを考察する。
以上の結果から,アノテータのアイデンティティと信念と毒性評価の相関が強く示唆された。
論文 参考訳(メタデータ) (2021-11-15T18:58:20Z) - Is radicalization reinforced by social media censorship? [0.0]
QAnon、Russgate、その他の政治的陰謀論と結びついた急進的な信念は、一部の個人や集団を暴力的な行動に駆り立てる可能性がある。
本稿では,検閲が不一致情報の量に与える影響を調査できるソーシャルメディア・ネットワークのエージェント・ベース・モデルについて述べる。
論文 参考訳(メタデータ) (2021-03-23T21:07:34Z) - A Dataset of State-Censored Tweets [3.0254442724635173]
2012年から2020年7月までに検閲された155,715人のツイート583,437件のデータセットをリリースしました。
また、検閲された4,301のアカウントもリリースしました。
我々のデータセットは政府の検閲の研究に役立つだけでなく、ヘイトスピーチの検出やソーシャルメディアユーザーに対する検閲の効果の研究にも役立ちます。
論文 参考訳(メタデータ) (2021-01-15T00:18:27Z) - Reading In-Between the Lines: An Analysis of Dissenter [2.2881898195409884]
我々は、あらゆるWebページに対して会話オーバーレイを提供するブラウザおよびWebアプリケーションであるDissenterについて研究する。
本研究では,議論中のDissenterコメントやユーザ,ウェブサイトの履歴を取得する。
私たちのコーパスは、101kユーザーが588kの異なるURLでコメントした約1.68万のコメントで構成されています。
論文 参考訳(メタデータ) (2020-09-03T16:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。