論文の概要: Algorithmic Arbitrariness in Content Moderation
- arxiv url: http://arxiv.org/abs/2402.16979v1
- Date: Mon, 26 Feb 2024 19:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:54:04.280278
- Title: Algorithmic Arbitrariness in Content Moderation
- Title(参考訳): コンテンツモデレーションにおけるアルゴリズム的任意性
- Authors: Juan Felipe Gomez and Caio Vieira Machado and Lucas Monteiro Paes and
Flavio P. Calmon
- Abstract要約: コンテンツモデレーションツールは、サンプルを任意に有毒と分類する方法を示す。
我々は、国際公民権条約(ICCPR)が定める人権の観点からこれらの知見について議論する。
本研究は、コンテンツモデレーションアプリケーションにおいて、任意性の透明性を識別し、向上する必要性を浮き彫りにする。
- 参考スコア(独自算出の注目度): 1.4849645397321183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) is widely used to moderate online content. Despite its
scalability relative to human moderation, the use of ML introduces unique
challenges to content moderation. One such challenge is predictive
multiplicity: multiple competing models for content classification may perform
equally well on average, yet assign conflicting predictions to the same
content. This multiplicity can result from seemingly innocuous choices during
model development, such as random seed selection for parameter initialization.
We experimentally demonstrate how content moderation tools can arbitrarily
classify samples as toxic, leading to arbitrary restrictions on speech. We
discuss these findings in terms of human rights set out by the International
Covenant on Civil and Political Rights (ICCPR), namely freedom of expression,
non-discrimination, and procedural justice. We analyze (i) the extent of
predictive multiplicity among state-of-the-art LLMs used for detecting toxic
content; (ii) the disparate impact of this arbitrariness across social groups;
and (iii) how model multiplicity compares to unambiguous human classifications.
Our findings indicate that the up-scaled algorithmic moderation risks
legitimizing an algorithmic leviathan, where an algorithm disproportionately
manages human rights. To mitigate such risks, our study underscores the need to
identify and increase the transparency of arbitrariness in content moderation
applications. Since algorithmic content moderation is being fueled by pressing
social concerns, such as disinformation and hate speech, our discussion on
harms raises concerns relevant to policy debates. Our findings also contribute
to content moderation and intermediary liability laws being discussed and
passed in many countries, such as the Digital Services Act in the European
Union, the Online Safety Act in the United Kingdom, and the Fake News Bill in
Brazil.
- Abstract(参考訳): 機械学習(ML)はオンラインコンテンツの適度化に広く利用されている。
人間のモデレーションに対するスケーラビリティにもかかわらず、MLの使用はコンテンツモデレーションに固有の課題をもたらす。
コンテンツ分類のための競合する複数のモデルは、平均的に同じようにうまく機能するが、矛盾する予測を同じコンテンツに割り当てる。
この多重性は、パラメータ初期化のためのランダムシード選択など、モデル開発中の一見無害な選択から生じる可能性がある。
我々は,コンテンツモデレーションツールが任意にサンプルを有毒に分類する方法を実験的に実証し,音声に対する任意の制限を導いた。
これらの知見を,国際公民権条約(ICCPR)が定める人権,表現の自由,非差別,手続き的正義の観点から論じる。
分析して
(i)有毒物の検出に用いられる最先端llmの予測重複度の範囲
(ii)この社会的集団間の任意性の違いによる影響
(iii)モデル重複度と非あいまいな人間分類の比較
以上の結果から,アルゴリズムが人権を不均等に管理するアルゴリズムレビアサンを正当化するアルゴリズムモデレーションリスクが示唆された。
このようなリスクを軽減するため,本研究では,コンテンツモデレーションアプリケーションにおける任意性の透明性を識別し,高める必要性を強調する。
アルゴリズムによるコンテンツモデレーションは、偽情報やヘイトスピーチなどの社会的関心を喚起することで促進されているため、害に関する議論は、政策論争に関連する関心を喚起する。
また,欧州連合のデジタルサービス法,英国のオンライン安全法,ブラジルのフェイクニュース法案など,多くの国で議論・可決されているコンテンツモデレーションおよび仲介責任法にも寄与している。
関連論文リスト
- Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models [9.42299478071576]
ソーシャルメディアプラットフォーム上の有害コンテンツは、ユーザーや社会に重大なリスクをもたらす。
現在のアプローチは、人間のモデレーター、教師付き分類器、大量のトレーニングデータに依存している。
我々は,Large Language Models (LLMs) を用いて,テキスト内学習による動的コンテンツのモデレーションを少数行う。
論文 参考訳(メタデータ) (2025-01-23T00:19:14Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Towards Probing Speech-Specific Risks in Large Multimodal Models: A Taxonomy, Benchmark, and Insights [50.89022445197919]
本研究は,8つのリスクカテゴリーを敵意(悪意的皮肉と脅し),悪意的模倣(年齢,性別,民族),ステレオタイプ的バイアス(年齢,性別,民族)を対象とする音声特異的リスク分類法を提案する。
分類に基づいて,これらのリスクのカテゴリを検出するために,現在のLMM能力を評価するための小規模データセットを作成する。
論文 参考訳(メタデータ) (2024-06-25T10:08:45Z) - Content Moderation on Social Media in the EU: Insights From the DSA
Transparency Database [0.0]
デジタルサービス法(DSA)は、EU内の大規模なソーシャルメディアプラットフォームに対して、特定のコンテンツへのアクセスを制限するたびに明確で具体的な情報を提供することを要求する。
Reasons(SoR)のステートメントは、コンテンツモデレーション決定の透明性と精査を保証するために、DSA Transparency Databaseに収集される。
われわれは、EUのソーシャルメディアプラットフォームにおけるコンテンツモデレーション決定を早期に検討するため、2ヶ月の観察期間内に1億5600万のSoRを実証分析した。
論文 参考訳(メタデータ) (2023-12-07T16:56:19Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Compatibility of Fairness Metrics with EU Non-Discrimination Laws:
Demographic Parity & Conditional Demographic Disparity [3.5607241839298878]
実証的な証拠は、機械学習(ML)技術によって駆動されるアルゴリズムによる決定が、法的に保護されたグループに対する差別を脅かしたり、新たな不公平な情報源を創り出すことを示唆している。
この研究は、公正度メトリックと公正度制約による法的公正性を保証するためのポイントを評価することを目的としています。
我々の実験と分析は、手元にあるケースと法的正当性に応じて、AIによる意思決定が法的な観点から公平である可能性を示唆している。
論文 参考訳(メタデータ) (2023-06-14T09:38:05Z) - Bias, diversity, and challenges to fairness in classification and
automated text analysis. From libraries to AI and back [3.9198548406564604]
分類と自動テキスト分析におけるAI利用における偏見と不公平性に関するリスクについて検討する。
我々は「多様性」の概念に関連して「不平等」の概念を詳しく見ていく。
論文 参考訳(メタデータ) (2023-03-07T20:54:49Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - A Keyword Based Approach to Understanding the Overpenalization of
Marginalized Groups by English Marginal Abuse Models on Twitter [2.9604738405097333]
有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。
テキストベースモデルに関連付けられた潜在的害の重症度を検出・測定するための原則的アプローチを提案する。
提案手法を適用して,Twitterの英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・日本語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語・英語
論文 参考訳(メタデータ) (2022-10-07T20:28:00Z) - Modeling Content Creator Incentives on Algorithm-Curated Platforms [76.53541575455978]
本研究では,アルゴリズムの選択が露出ゲームにおける(ナッシュ)平衡の存在と性格にどのように影響するかを検討する。
本研究では、露出ゲームにおける平衡を数値的に見つけるためのツールを提案し、MovieLensとLastFMデータセットの監査結果を示す。
論文 参考訳(メタデータ) (2022-06-27T08:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。