Fugu-MT 論文翻訳(概要): Bandits for Online Calibration: An Application to Content Moderation on Social Media Platforms

論文の概要: Bandits for Online Calibration: An Application to Content Moderation on Social Media Platforms

arxiv url: http://arxiv.org/abs/2211.06516v1
Date: Fri, 11 Nov 2022 23:55:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 19:01:00.504143
Title: Bandits for Online Calibration: An Application to Content Moderation on Social Media Platforms
Title（参考訳）: オンライン校正のための帯域:ソーシャルメディアプラットフォームにおけるコンテンツモデレーションへの応用
Authors: Vashist Avadhanula, Omar Abdul Baki, Hamsa Bastani, Osbert Bastani, Caner Gocmen, Daniel Haimovich, Darren Hwang, Dima Karamshuk, Thomas Leeper, Jiayuan Ma, Gregory Macnamara, Jake Mullett, Christopher Palow, Sung Park, Varun S Rajagopal, Kevin Schaeffer, Parikshit Shah, Deeksha Sinha, Nicolas Stier-Moses, Peng Xu
Abstract要約: 本稿では、Metaがプラットフォームからポリシー違反コンテンツを取り除くために採用している、現在のコンテンツモデレーション戦略について述べる。手工芸品と学習リスクモデルの両方を使って、人間のレビューのために潜在的に違反するコンテンツをフラグ付けします。当社のアプローチでは、これらのリスクモデルを単一のランキングスコアに集約し、より信頼性の高いリスクモデルを優先順位付けします。
参考スコア（独自算出の注目度）: 14.242221219862849
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We describe the current content moderation strategy employed by Meta to remove policy-violating content from its platforms. Meta relies on both handcrafted and learned risk models to flag potentially violating content for human review. Our approach aggregates these risk models into a single ranking score, calibrating them to prioritize more reliable risk models. A key challenge is that violation trends change over time, affecting which risk models are most reliable. Our system additionally handles production challenges such as changing risk models and novel risk models. We use a contextual bandit to update the calibration in response to such trends. Our approach increases Meta's top-line metric for measuring the effectiveness of its content moderation strategy by 13%.
Abstract（参考訳）: 本稿では、Metaがプラットフォームからポリシー違反コンテンツを取り除くために採用している、現在のコンテンツモデレーション戦略について述べる。 Metaは、人間のレビューに違反する可能性のあるコンテンツを警告するために、手作りと学習の両方のリスクモデルに依存している。当社のアプローチでは、これらのリスクモデルを単一のランキングスコアに集約し、より信頼性の高いリスクモデルを優先順位付けします。鍵となる課題は、違反傾向が時間とともに変化し、どのリスクモデルが最も信頼できるかに影響することです。また,リスクモデルの変更や新たなリスクモデルなど,生産上の課題にも対処する。このような傾向に対応して,コンテクストバンディットを用いてキャリブレーションを更新する。提案手法は,そのコンテンツモデレーション戦略の有効性を13%向上させるために,metaのtop-lineメトリックを増加させる。

関連論文リスト

Safety Pretraining: Toward the Next Generation of Safe AI [61.2816320807586]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。 i)600Bトークンをフィルタするために使用される1万GPT-4ラベルの例に基づいてトレーニングされた安全分類器,(ii)有害なWebデータのテキスト化によって生成された,これまでで最大の合成安全データセット,(iv)安全でないコンテンツのフラグ付けのために事前トレーニング中に注入されたハームフルネス・タグアノテーション。
論文参考訳（メタデータ） (2025-04-23T17:58:08Z)
Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms [10.421660174482314]
ゼロショットおよび少数ショット設定において,Large Language Models (LLMs) を用いた新たな階層化手法を提案する。提案手法は, ラベル付きデータを必要とすることなく, 有害なコンテンツ露出を効果的に軽減し, コンテンツシーケンスを動的に評価・再ランクする。
論文参考訳（メタデータ） (2025-01-23T00:26:32Z)
Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models [9.42299478071576]
ソーシャルメディアプラットフォーム上の有害コンテンツは、ユーザーや社会に重大なリスクをもたらす。現在のアプローチは、人間のモデレーター、教師付き分類器、大量のトレーニングデータに依存している。我々は,Large Language Models (LLMs) を用いて,テキスト内学習による動的コンテンツのモデレーションを少数行う。
論文参考訳（メタデータ） (2025-01-23T00:19:14Z)
Optimal Classification under Performative Distribution Shift [13.508249764979075]
本稿では,動作効果をプッシュフォワード尺度としてモデル化した新しい視点を提案する。我々は、新しい仮定のセットの下で、パフォーマンスリスクの凸性を証明する。また, 性能リスクの最小化を min-max 変動問題として再定義することにより, 逆向きの頑健な分類との関係を確立する。
論文参考訳（メタデータ） (2024-11-04T12:20:13Z)
Let Community Rules Be Reflected in Online Content Moderation [2.4717834653693083]
本研究では,コミュニティルールに基づくコンテンツモデレーションフレームワークを提案する。コミュニティルールをユーザ生成コンテンツのモデレーションに統合する。特に、コミュニティルールを取り入れることで、コンテンツモデレーションにおけるモデルパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2024-08-21T23:38:02Z)
ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文参考訳（メタデータ） (2024-07-31T17:48:14Z)
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文参考訳（メタデータ） (2024-06-26T05:36:23Z)
Decision Mamba: A Multi-Grained State Space Model with Self-Evolution Regularization for Offline RL [57.202733701029594]
決定マンバ(Decision Mamba)は、自己進化的な政策学習戦略を持つ、新しい多粒状態空間モデルである。雑音性軌道上における過度に適合する問題を緩和するために,進行正則化を用いて自己進化政策を提案する。この政策は、自身の過去の知識を用いて、準最適動作を洗練させ、ノイズの多い実演における堅牢性を高めることで進化する。
論文参考訳（メタデータ） (2024-06-08T10:12:00Z)
Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
IMMA: Immunizing text-to-image Models against Malicious Adaptation [11.912092139018885]
オープンソースのテキスト・ツー・イメージ・モデルと微調整手法は、悪意のある適応のリスク、すなわち、有害で無許可なコンテンツを生成するための微調整のリスクを増大させてきた。本稿では,悪意のあるコンテンツを微調整する際の適応手法が難しいモデルパラメータを学習し,そのモデルに対する「免疫」を提案する。実験結果から,IMMAの芸術的スタイルの模倣や不適切・無許可なコンテンツの学習など,悪意ある適応に対する効果が示された。
論文参考訳（メタデータ） (2023-11-30T18:55:16Z)
Improved Membership Inference Attacks Against Language Classification Models [0.0]
分類モデルに対するメンバシップ推論攻撃を実行するための新しいフレームワークを提案する。本手法は,単一攻撃モデルやクラスラベル毎の攻撃モデルよりも精度が高いことを示す。
論文参考訳（メタデータ） (2023-10-11T06:09:48Z)
Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。 MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文参考訳（メタデータ） (2022-10-14T03:22:43Z)
Reliable Decision from Multiple Subtasks through Threshold Optimization: Content Moderation in the Wild [7.176020195419459]
ソーシャルメディアプラットフォームは、コンテンツモデレーションを通じて有害なコンテンツからユーザーを守るのに苦労している。これらのプラットフォームは最近、大量のユーザー生成コンテンツに毎日対処するために機械学習モデルを活用している。サードパーティーのコンテンツモデレーションサービスは、未成年者の存在、失礼なジェスチャー、武器など、複数のサブタスクの予測スコアを提供する。本稿では,複数のサブタスクの最適しきい値を探索し,信頼性の高いモデレーション決定をコスト効率よく行うための,シンプルで効果的なしきい値最適化手法を提案する。
論文参考訳（メタデータ） (2022-08-16T03:51:43Z)
MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文参考訳（メタデータ） (2020-05-27T08:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。