論文の概要: VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform
- arxiv url: http://arxiv.org/abs/2504.14904v1
- Date: Mon, 21 Apr 2025 07:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 19:10:32.676967
- Title: VLM as Policy: Common-Law Content Moderation Framework for Short Video Platform
- Title(参考訳): VLM as Policy:ショートビデオプラットフォームのための共通言語コンテンツモデレーションフレームワーク
- Authors: Xingyu Lu, Tianke Zhang, Chang Meng, Xiaobei Wang, Jinpeng Wang, YiFan Zhang, Shisong Tang, Changyi Liu, Haojie Ding, Kaiyu Jiang, Kaiyu Tang, Bin Wen, Hai-Tao Zheng, Fan Yang, Tingting Gao, Di Zhang, Kun Gai,
- Abstract要約: ショートビデオプラットフォーム(SVP)は、ユーザのメンタルヘルスに有害なコンテンツをモデレートする上で大きな課題に直面している。
既存の方法には限界がある: マニュアルレビューは人間のバイアスを伴い、高い運用コストを発生させる。
これらの課題に対処するため、KuaiModというコモン・ロー・コンテンツ・モデレーション・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 28.523936398292683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exponentially growing short video platforms (SVPs) face significant challenges in moderating content detrimental to users' mental health, particularly for minors. The dissemination of such content on SVPs can lead to catastrophic societal consequences. Although substantial efforts have been dedicated to moderating such content, existing methods suffer from critical limitations: (1) Manual review is prone to human bias and incurs high operational costs. (2) Automated methods, though efficient, lack nuanced content understanding, resulting in lower accuracy. (3) Industrial moderation regulations struggle to adapt to rapidly evolving trends due to long update cycles. In this paper, we annotate the first SVP content moderation benchmark with authentic user/reviewer feedback to fill the absence of benchmark in this field. Then we evaluate various methods on the benchmark to verify the existence of the aforementioned limitations. We further propose our common-law content moderation framework named KuaiMod to address these challenges. KuaiMod consists of three components: training data construction, offline adaptation, and online deployment & refinement. Leveraging large vision language model (VLM) and Chain-of-Thought (CoT) reasoning, KuaiMod adequately models video toxicity based on sparse user feedback and fosters dynamic moderation policy with rapid update speed and high accuracy. Offline experiments and large-scale online A/B test demonstrates the superiority of KuaiMod: KuaiMod achieves the best moderation performance on our benchmark. The deployment of KuaiMod reduces the user reporting rate by 20% and its application in video recommendation increases both Daily Active User (DAU) and APP Usage Time (AUT) on several Kuaishou scenarios. We have open-sourced our benchmark at https://kuaimod.github.io.
- Abstract(参考訳): 指数的に成長するショートビデオプラットフォーム(SVP)は、特に未成年者にとって、ユーザーのメンタルヘルスに有害なコンテンツのモデレーションにおいて重大な課題に直面している。
SVPへのそのような内容の拡散は、破滅的な社会的結果をもたらす可能性がある。
このような内容の調整に多大な努力が注がれているが、既存の手法では、(1)手動によるレビューは人間の偏見を招き、高い運用コストを発生させる。
2) 効率は良いが, 内容理解に乏しく, 精度は低い。
3 産業調整規制は、長期の更新サイクルによる急激なトレンドへの対応に苦慮している。
本稿では,この分野でのベンチマークの欠如を補うために,ユーザ/リビューアのフィードバックを正し,最初のSVPコンテンツモデレーションベンチマークをアノテートする。
そして、上記の制限の存在を検証するために、ベンチマーク上の様々な方法を評価する。
また、これらの課題に対処するため、KuaiModというコモン・ロー・コンテンツ・モデレーション・フレームワークを提案する。
KuaiModは、データ構築のトレーニング、オフライン適応、オンラインデプロイメントと改善の3つのコンポーネントで構成されている。
広視野言語モデル(VLM)とChain-of-Thought(CoT)の推論を活用することで、KuaiModはスパースユーザフィードバックに基づいてビデオ毒性を適切にモデル化し、迅速な更新速度と高い精度で動的モデレーションポリシーを向上する。
オフライン実験と大規模オンラインA/Bテストは、KuaiModの優位性を実証している。
KuaiModのデプロイにより、ユーザの報告率を20%削減し、ビデオレコメンデーションにおける適用により、複数のKuaishouシナリオ上でのDaily Active User (DAU)とAPP Usage Time (AUT)の両方が増加する。
私たちはベンチマークをhttps://kuaimod.github.io.comでオープンソース化しました。
関連論文リスト
- FLAME: Flexible LLM-Assisted Moderation Engine [2.966082563853265]
フレキシブル LLM-Assisted Moderation Engine (FLAME) について紹介する。
ユーザクエリを分析する従来のサーキットブレーキング方法とは異なり、FLAMEはモデル応答を評価する。
実験の結果,FLAMEは現在のモデレーションシステムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-02-13T11:05:55Z) - Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model [62.38322742493649]
我々は、編集カテゴリ、すなわちエフェクト、面白い、ミーム、ゲームをカバーするビデオVQAベンチマークを構築した。
オープンソースビデオのLMMのほとんどはベンチマークでは不十分であり、ソーシャルメディア上の編集されたショートビデオと通常の生ビデオの間に大きなドメインギャップがあることを示唆している。
LMMの一般化能力を向上させるため,Panda-70M/WebVid生ビデオとTikTok/CapCut編集ビデオの両方に基づいて,提案したベンチマークのトレーニングセットを収集した。
論文 参考訳(メタデータ) (2024-06-15T03:28:52Z) - Explainability and Hate Speech: Structured Explanations Make Social Media Moderators Faster [72.84926097773578]
実世界のモデレーターの速度に及ぼす説明の影響について検討する。
我々の実験では、一般的な説明は速度に影響せず、しばしば無視されるが、構造化された説明はモデレーターの意思決定時間を7.4%減少させる。
論文 参考訳(メタデータ) (2024-06-06T14:23:10Z) - LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback [16.57980268646285]
本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。
コンテンツ保存と適切性のバランスをとるための強化学習に基づく書き直し手法を提案する。
絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
論文 参考訳(メタデータ) (2024-06-05T15:18:08Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - Content Moderation on Social Media in the EU: Insights From the DSA
Transparency Database [0.0]
デジタルサービス法(DSA)は、EU内の大規模なソーシャルメディアプラットフォームに対して、特定のコンテンツへのアクセスを制限するたびに明確で具体的な情報を提供することを要求する。
Reasons(SoR)のステートメントは、コンテンツモデレーション決定の透明性と精査を保証するために、DSA Transparency Databaseに収集される。
われわれは、EUのソーシャルメディアプラットフォームにおけるコンテンツモデレーション決定を早期に検討するため、2ヶ月の観察期間内に1億5600万のSoRを実証分析した。
論文 参考訳(メタデータ) (2023-12-07T16:56:19Z) - An Image is Worth a Thousand Toxic Words: A Metamorphic Testing
Framework for Content Moderation Software [64.367830425115]
ソーシャルメディアプラットフォームは、ヘイトスピーチ、悪意のある広告、ポルノなど、有害なコンテンツを拡散するためにますます悪用されている。
コンテンツモデレーション手法の開発と展開に多大な努力を払っているにもかかわらず、悪意のあるユーザは、テキストを画像に埋め込むことでモデレーションを回避することができる。
コンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T20:33:06Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - Bandits for Online Calibration: An Application to Content Moderation on
Social Media Platforms [14.242221219862849]
本稿では、Metaがプラットフォームからポリシー違反コンテンツを取り除くために採用している、現在のコンテンツモデレーション戦略について述べる。
手工芸品と学習リスクモデルの両方を使って、人間のレビューのために潜在的に違反するコンテンツをフラグ付けします。
当社のアプローチでは、これらのリスクモデルを単一のランキングスコアに集約し、より信頼性の高いリスクモデルを優先順位付けします。
論文 参考訳(メタデータ) (2022-11-11T23:55:53Z) - Reliable Decision from Multiple Subtasks through Threshold Optimization:
Content Moderation in the Wild [7.176020195419459]
ソーシャルメディアプラットフォームは、コンテンツモデレーションを通じて有害なコンテンツからユーザーを守るのに苦労している。
これらのプラットフォームは最近、大量のユーザー生成コンテンツに毎日対処するために機械学習モデルを活用している。
サードパーティーのコンテンツモデレーションサービスは、未成年者の存在、失礼なジェスチャー、武器など、複数のサブタスクの予測スコアを提供する。
本稿では,複数のサブタスクの最適しきい値を探索し,信頼性の高いモデレーション決定をコスト効率よく行うための,シンプルで効果的なしきい値最適化手法を提案する。
論文 参考訳(メタデータ) (2022-08-16T03:51:43Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。