論文の概要: Revealing Hidden Mechanisms of Cross-Country Content Moderation with Natural Language Processing
- arxiv url: http://arxiv.org/abs/2503.05280v2
- Date: Mon, 10 Mar 2025 04:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 11:38:44.462184
- Title: Revealing Hidden Mechanisms of Cross-Country Content Moderation with Natural Language Processing
- Title(参考訳): 自然言語処理によるクロスカウンタコンテンツモデレーションの隠れ機構の解明
- Authors: Neemesh Yadav, Jiarui Liu, Francesco Ortu, Roya Ensafi, Zhijing Jin, Rada Mihalcea,
- Abstract要約: 我々は,既存のTwitter Stream Grabのコーパスを用いて,各国のコンテンツモデレーション決定について検討した。
われわれの実験では、検閲された投稿に、国や時間とともに興味深いパターンが浮かび上がっている。
コンテンツモデレーションにおけるLLMの有効性を評価する。
- 参考スコア(独自算出の注目度): 34.69237228285959
- License:
- Abstract: The ability of Natural Language Processing (NLP) methods to categorize text into multiple classes has motivated their use in online content moderation tasks, such as hate speech and fake news detection. However, there is limited understanding of how or why these methods make such decisions, or why certain content is moderated in the first place. To investigate the hidden mechanisms behind content moderation, we explore multiple directions: 1) training classifiers to reverse-engineer content moderation decisions across countries; 2) explaining content moderation decisions by analyzing Shapley values and LLM-guided explanations. Our primary focus is on content moderation decisions made across countries, using pre-existing corpora sampled from the Twitter Stream Grab. Our experiments reveal interesting patterns in censored posts, both across countries and over time. Through human evaluations of LLM-generated explanations across three LLMs, we assess the effectiveness of using LLMs in content moderation. Finally, we discuss potential future directions, as well as the limitations and ethical considerations of this work. Our code and data are available at https://github.com/causalNLP/censorship
- Abstract(参考訳): 自然言語処理(NLP)メソッドがテキストを複数のクラスに分類する能力は、ヘイトスピーチやフェイクニュース検出といったオンラインコンテンツモデレーションタスクでの利用を動機付けている。
しかし、これらの方法がなぜそのような決定を下すのか、そもそもなぜ特定の内容が中和されるのかについては、限定的な理解がある。
コンテンツモデレーションの背後にある隠されたメカニズムを調べるため、複数の方向を探索する。
1) 国ごとのコンテンツモデレーション決定をリバースエンジニアリングするための分類器の訓練
2)コンテンツモデレーションの決定は,シェープリー値とLCM誘導の説明を解析して説明する。
Twitter Stream Grabからサンプルした既存のコーパスを使って、各国のコンテンツモデレーションの決定に重点を置いています。
われわれの実験では、検閲された投稿に、国や時間とともに興味深いパターンが浮かび上がっている。
コンテンツモデレーションにおけるLLMの有効性を評価するため、3つのLCM間でのLCM生成説明の人間による評価を行った。
最後に、今後の方向性と、本研究の限界と倫理的考察について論じる。
私たちのコードとデータはhttps://github.com/causalNLP/censorshipで利用可能です。
関連論文リスト
- Advancing Content Moderation: Evaluating Large Language Models for Detecting Sensitive Content Across Text, Images, and Videos [0.1399948157377307]
政府、教育者、そして親はしばしば、そのようなコンテンツの拡散を規制し、制御し、制限する方法についてメディアプラットフォームと対立している。
自然言語処理やコンピュータビジョンといった技術は、センシティブなコンテンツを自動的に識別し、フィルタリングするために広く使われている。
テキストと画像の両方のコンテキストを理解するためのより洗練されたアルゴリズムは、コンテンツ検閲の改善のための部屋を開くかもしれない。
論文 参考訳(メタデータ) (2024-11-26T05:29:18Z) - Uncovering Differences in Persuasive Language in Russian versus English Wikipedia [40.61046400448044]
英語とロシア語で書かれたウィキペディア記事間の説得力のある言語の違いが、それぞれの文化の異なる主題に対する視点を明らかにする方法について検討する。
我々は多言語テキスト中の説得的言語を識別する大規模言語モデル(LLM)システムを開発した。
論文 参考訳(メタデータ) (2024-09-27T21:23:19Z) - Algorithmic Arbitrariness in Content Moderation [1.4849645397321183]
コンテンツモデレーションツールは、サンプルを任意に有毒と分類する方法を示す。
我々は、国際公民権条約(ICCPR)が定める人権の観点からこれらの知見について議論する。
本研究は、コンテンツモデレーションアプリケーションにおいて、任意性の透明性を識別し、向上する必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-26T19:27:00Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Why Should This Article Be Deleted? Transparent Stance Detection in
Multilingual Wikipedia Editor Discussions [47.944081120226905]
ウィキペディア編集者の議論の新たなデータセットを3言語で構築する。
データセットには、エディタのスタンス(keep、delete、merge、コメント)と、記述された理由、編集決定ごとにコンテンツモデレーションポリシーが含まれている。
我々は、姿勢とそれに対応する理由(政治)を高い精度で予測し、意思決定プロセスに透明性を加えることを実証する。
論文 参考訳(メタデータ) (2023-10-09T15:11:02Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Evaluating GPT-3 Generated Explanations for Hateful Content Moderation [8.63841985804905]
ヘイトフルコンテンツと非ヘイトフルコンテンツの両方に関する説明を生成するために、GPT-3を使用します。
生成した説明を評価するために,2400人の独特な回答者を対象に調査を行った。
以上の結果から, GPTによる説明は言語流布度, 情報伝達度, 説得力, 論理音性において高い品質と評価された。
論文 参考訳(メタデータ) (2023-05-28T10:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。