論文の概要: Bandits for Online Calibration: An Application to Content Moderation on
Social Media Platforms
- arxiv url: http://arxiv.org/abs/2211.06516v1
- Date: Fri, 11 Nov 2022 23:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:01:00.504143
- Title: Bandits for Online Calibration: An Application to Content Moderation on
Social Media Platforms
- Title(参考訳): オンライン校正のための帯域:ソーシャルメディアプラットフォームにおけるコンテンツモデレーションへの応用
- Authors: Vashist Avadhanula, Omar Abdul Baki, Hamsa Bastani, Osbert Bastani,
Caner Gocmen, Daniel Haimovich, Darren Hwang, Dima Karamshuk, Thomas Leeper,
Jiayuan Ma, Gregory Macnamara, Jake Mullett, Christopher Palow, Sung Park,
Varun S Rajagopal, Kevin Schaeffer, Parikshit Shah, Deeksha Sinha, Nicolas
Stier-Moses, Peng Xu
- Abstract要約: 本稿では、Metaがプラットフォームからポリシー違反コンテンツを取り除くために採用している、現在のコンテンツモデレーション戦略について述べる。
手工芸品と学習リスクモデルの両方を使って、人間のレビューのために潜在的に違反するコンテンツをフラグ付けします。
当社のアプローチでは、これらのリスクモデルを単一のランキングスコアに集約し、より信頼性の高いリスクモデルを優先順位付けします。
- 参考スコア(独自算出の注目度): 14.242221219862849
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We describe the current content moderation strategy employed by Meta to
remove policy-violating content from its platforms. Meta relies on both
handcrafted and learned risk models to flag potentially violating content for
human review. Our approach aggregates these risk models into a single ranking
score, calibrating them to prioritize more reliable risk models. A key
challenge is that violation trends change over time, affecting which risk
models are most reliable. Our system additionally handles production challenges
such as changing risk models and novel risk models. We use a contextual bandit
to update the calibration in response to such trends. Our approach increases
Meta's top-line metric for measuring the effectiveness of its content
moderation strategy by 13%.
- Abstract(参考訳): 本稿では、Metaがプラットフォームからポリシー違反コンテンツを取り除くために採用している、現在のコンテンツモデレーション戦略について述べる。
Metaは、人間のレビューに違反する可能性のあるコンテンツを警告するために、手作りと学習の両方のリスクモデルに依存している。
当社のアプローチでは、これらのリスクモデルを単一のランキングスコアに集約し、より信頼性の高いリスクモデルを優先順位付けします。
鍵となる課題は、違反傾向が時間とともに変化し、どのリスクモデルが最も信頼できるかに影響することです。
また,リスクモデルの変更や新たなリスクモデルなど,生産上の課題にも対処する。
このような傾向に対応して,コンテクストバンディットを用いてキャリブレーションを更新する。
提案手法は,そのコンテンツモデレーション戦略の有効性を13%向上させるために,metaのtop-lineメトリックを増加させる。
関連論文リスト
- Optimal Classification under Performative Distribution Shift [13.508249764979075]
本稿では,動作効果をプッシュフォワード尺度としてモデル化した新しい視点を提案する。
我々は、新しい仮定のセットの下で、パフォーマンスリスクの凸性を証明する。
また, 性能リスクの最小化を min-max 変動問題として再定義することにより, 逆向きの頑健な分類との関係を確立する。
論文 参考訳(メタデータ) (2024-11-04T12:20:13Z) - Let Community Rules Be Reflected in Online Content Moderation [2.4717834653693083]
本研究では,コミュニティルールに基づくコンテンツモデレーションフレームワークを提案する。
コミュニティルールをユーザ生成コンテンツのモデレーションに統合する。
特に、コミュニティルールを取り入れることで、コンテンツモデレーションにおけるモデルパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-08-21T23:38:02Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。
雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。
この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文 参考訳(メタデータ) (2024-06-08T10:12:00Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - IMMA: Immunizing text-to-image Models against Malicious Adaptation [11.912092139018885]
オープンソースのテキスト・ツー・イメージ・モデルと微調整手法は、悪意のある適応のリスク、すなわち、有害で無許可なコンテンツを生成するための微調整のリスクを増大させてきた。
本稿では,悪意のあるコンテンツを微調整する際の適応手法が難しいモデルパラメータを学習し,そのモデルに対する「免疫」を提案する。
実験結果から,IMMAの芸術的スタイルの模倣や不適切・無許可なコンテンツの学習など,悪意ある適応に対する効果が示された。
論文 参考訳(メタデータ) (2023-11-30T18:55:16Z) - Improved Membership Inference Attacks Against Language Classification Models [0.0]
分類モデルに対するメンバシップ推論攻撃を実行するための新しいフレームワークを提案する。
本手法は,単一攻撃モデルやクラスラベル毎の攻撃モデルよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2023-10-11T06:09:48Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Reliable Decision from Multiple Subtasks through Threshold Optimization:
Content Moderation in the Wild [7.176020195419459]
ソーシャルメディアプラットフォームは、コンテンツモデレーションを通じて有害なコンテンツからユーザーを守るのに苦労している。
これらのプラットフォームは最近、大量のユーザー生成コンテンツに毎日対処するために機械学習モデルを活用している。
サードパーティーのコンテンツモデレーションサービスは、未成年者の存在、失礼なジェスチャー、武器など、複数のサブタスクの予測スコアを提供する。
本稿では,複数のサブタスクの最適しきい値を探索し,信頼性の高いモデレーション決定をコスト効率よく行うための,シンプルで効果的なしきい値最適化手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T03:51:43Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。