論文の概要: Strategic Filtering for Content Moderation: Free Speech or Free of Distortion?
- arxiv url: http://arxiv.org/abs/2507.20061v1
- Date: Sat, 26 Jul 2025 21:04:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.786566
- Title: Strategic Filtering for Content Moderation: Free Speech or Free of Distortion?
- Title(参考訳): コンテンツモデレーションのためのストラテジックフィルタリング:自由音声か歪みの自由か?
- Authors: Saba Ahmadi, Avrim Blum, Haifeng Xu, Fan Yao,
- Abstract要約: ソーシャルメディアプラットフォーム上のユーザ生成コンテンツ(UGC)は、引用や操作に弱い。
社会的歪みの最小化と自由発話の最大化とのトレードオフを最適化することを目的としている。
- 参考スコア(独自算出の注目度): 41.59893570633978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: User-generated content (UGC) on social media platforms is vulnerable to incitements and manipulations, necessitating effective regulations. To address these challenges, those platforms often deploy automated content moderators tasked with evaluating the harmfulness of UGC and filtering out content that violates established guidelines. However, such moderation inevitably gives rise to strategic responses from users, who strive to express themselves within the confines of guidelines. Such phenomena call for a careful balance between: 1. ensuring freedom of speech -- by minimizing the restriction of expression; and 2. reducing social distortion -- measured by the total amount of content manipulation. We tackle the problem of optimizing this balance through the lens of mechanism design, aiming at optimizing the trade-off between minimizing social distortion and maximizing free speech. Although determining the optimal trade-off is NP-hard, we propose practical methods to approximate the optimal solution. Additionally, we provide generalization guarantees determining the amount of finite offline data required to approximate the optimal moderator effectively.
- Abstract(参考訳): ソーシャルメディアプラットフォーム上のユーザ生成コンテンツ(UGC)は、引用や操作に脆弱であり、効果的な規制を必要とする。
これらの課題に対処するため、これらのプラットフォームは、UGCの有害性を評価し、確立されたガイドラインに違反したコンテンツをフィルタリングする、自動化されたコンテンツモデレーターをデプロイすることが多い。
しかし、このようなモデレーションは必然的に、ガイドラインの範囲内で自分自身を表現しようとするユーザーからの戦略的反応を引き起こす。
このような現象には、注意深いバランスが求められる。
一 言論の自由の確保...表現の制限を最小化し、
2. 社会的歪みの低減 -- コンテンツ操作の総量によって測定される。
社会的歪みの最小化と自由発話の最大化とのトレードオフを最適化することを目的として,機構設計のレンズを通してこのバランスを最適化する問題に取り組む。
最適トレードオフを決定することはNPハードであるが、最適解を近似する実用的な方法を提案する。
さらに、最適なモデレーターを効率的に近似するのに要する有限オフラインデータの量を決定する一般化保証を提供する。
関連論文リスト
- Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management [71.99446449877038]
本研究では, 重度尺度, (ii) ターゲットの存在, (iii) 文脈尺度, (iv) 法的尺度の4つの側面を基礎として, より包括的手法であるDemarcation scoreing abusive speechを提案する。
本研究は,ネット上での虐待的スピーチを効果的に解決するための今後の戦略を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-27T21:45:33Z) - Self-Evolution Fine-Tuning for Policy Optimization [22.629113943131294]
政策最適化のための自己進化微調整(SEFT)を導入する。
SEFTは、教師付き微調整の安定性と効率を保ちながら、注釈付きサンプルの必要性を排除している。
この手法の顕著な特徴の1つは、ポリシー最適化のために無注釈データを無制限に活用できることである。
論文 参考訳(メタデータ) (2024-06-16T06:38:02Z) - Content-Agnostic Moderation for Stance-Neutral Recommendation [13.210645250173997]
コンテンツに依存しないモデレーションは、実際のコンテンツが適格化されることに頼らない。
本稿では,コンテンツ機能に頼らずに,コンテンツレコメンデータからのリコメンデーションを変更する2つの新しいコンテンツ非依存モデレーション手法を提案する。
この結果から,直接コンテンツ情報なしでのスタンス中立性の実現は実現可能であるだけでなく,ユーザのエンゲージメントを著しく低下させることなく,よりバランスのとれた情報的レコメンデーションシステムを開発する上でも有効であることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T09:50:39Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Reliable Decision from Multiple Subtasks through Threshold Optimization:
Content Moderation in the Wild [7.176020195419459]
ソーシャルメディアプラットフォームは、コンテンツモデレーションを通じて有害なコンテンツからユーザーを守るのに苦労している。
これらのプラットフォームは最近、大量のユーザー生成コンテンツに毎日対処するために機械学習モデルを活用している。
サードパーティーのコンテンツモデレーションサービスは、未成年者の存在、失礼なジェスチャー、武器など、複数のサブタスクの予測スコアを提供する。
本稿では,複数のサブタスクの最適しきい値を探索し,信頼性の高いモデレーション決定をコスト効率よく行うための,シンプルで効果的なしきい値最適化手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T03:51:43Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Disinformation, Stochastic Harm, and Costly Filtering: A Principal-Agent
Analysis of Regulating Social Media Platforms [2.9747815715612713]
Facebookなどのソーシャルメディアプラットフォームにおける偽情報の拡散は社会に有害である。
偽情報のフィルタリングは、フィルタリングアルゴリズムの実装や手作業によるフィルタリングに限らず、費用がかかる。
有害なコンテンツのコストは他の団体によって負担されるため、プラットフォームは社会的に最適なレベルでフィルタリングするインセンティブを持っていない。
論文 参考訳(メタデータ) (2021-06-17T23:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。