論文の概要: Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2501.13976v1
- Date: Thu, 23 Jan 2025 00:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:57.305946
- Title: Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models
- Title(参考訳): ソーシャルメディアプラットフォームを犠牲にする:大規模言語モデルを用いたスケーラブルで高性能なFew-Shotハーモフルコンテンツモデレーション
- Authors: Akash Bonagiri, Lucen Li, Rajvardhan Oak, Zeerak Babar, Magdalena Wojcieszak, Anshuman Chhabra,
- Abstract要約: ソーシャルメディアプラットフォーム上の有害コンテンツは、ユーザーや社会に重大なリスクをもたらす。
現在のアプローチは、人間のモデレーター、教師付き分類器、大量のトレーニングデータに依存している。
我々は,Large Language Models (LLMs) を用いて,テキスト内学習による動的コンテンツのモデレーションを少数行う。
- 参考スコア(独自算出の注目度): 9.42299478071576
- License:
- Abstract: The prevalence of harmful content on social media platforms poses significant risks to users and society, necessitating more effective and scalable content moderation strategies. Current approaches rely on human moderators, supervised classifiers, and large volumes of training data, and often struggle with scalability, subjectivity, and the dynamic nature of harmful content (e.g., violent content, dangerous challenge trends, etc.). To bridge these gaps, we utilize Large Language Models (LLMs) to undertake few-shot dynamic content moderation via in-context learning. Through extensive experiments on multiple LLMs, we demonstrate that our few-shot approaches can outperform existing proprietary baselines (Perspective and OpenAI Moderation) as well as prior state-of-the-art few-shot learning methods, in identifying harm. We also incorporate visual information (video thumbnails) and assess if different multimodal techniques improve model performance. Our results underscore the significant benefits of employing LLM based methods for scalable and dynamic harmful content moderation online.
- Abstract(参考訳): ソーシャルメディアプラットフォームにおける有害コンテンツの普及は、ユーザーや社会に重大なリスクをもたらし、より効果的でスケーラブルなコンテンツモデレーション戦略を必要とする。
現在のアプローチは、人間のモデレーター、教師付き分類器、大量のトレーニングデータに依存しており、しばしばスケーラビリティ、主観性、有害なコンテンツ(例えば、暴力的なコンテンツ、危険なチャレンジトレンドなど)の動的な性質に苦しむ。
これらのギャップを埋めるために,Large Language Models (LLMs) を用いて,テキスト内学習による動的コンテンツのモデレーションを少数のショットで行う。
複数のLLMに関する広範な実験を通じて、我々の数発のアプローチは、既存の独自のベースライン(PerspectiveとOpenAIのモデレーション)と、過去の最先端の数発の学習手法を上回り、害を識別できることを実証した。
また、視覚情報(ビデオサムネイル)を取り入れ、異なるマルチモーダル技術がモデル性能を向上させるかどうかを評価する。
この結果から, スケーラブルで動的に有害なコンテンツモデレーションをオンラインで行う上で, LLMをベースとした手法を用いることによる大きなメリットが浮き彫りになった。
関連論文リスト
- A Persuasion-Based Prompt Learning Approach to Improve Smishing Detection through Data Augmentation [1.4388765025696655]
マシンラーニングベースのスマイシング検出には、多くの課題が残っている。
スマイシング関連データの繊細な性質を考えると、MLモデルのトレーニングや評価に使用可能な、公開アクセス可能なデータが不足している。
本稿では,数発のプロンプト学習アプローチを用いた新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T04:20:02Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning [8.831339626121848]
ソースコードとアーティファクトによる包括的な評価フレームワークをリリースします。
我々の研究は、特により複雑で現実的な状況において、あらゆる方法が副作用や制限を持っていることを明らかにしている。
論文 参考訳(メタデータ) (2024-10-08T03:30:39Z) - Social Debiasing for Fair Multi-modal LLMs [55.8071045346024]
MLLM(Multi-modal Large Language Models)は、強力な視覚言語理解機能を提供する。
しかしながら、これらのモデルはトレーニングデータセットから深刻な社会的偏見を継承することが多く、人種や性別といった属性に基づいた不公平な予測につながります。
本稿では,MLLMにおける社会的バイアスの問題に対処する。i)多元的社会的概念(CMSC)を用いた包括的対実的データセットの導入,i)アンチステレオタイプデバイアス戦略(ASD)を提案する。
論文 参考訳(メタデータ) (2024-08-13T02:08:32Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - MinT: Boosting Generalization in Mathematical Reasoning via Multi-View
Fine-Tuning [53.90744622542961]
数学領域における推論は、小言語モデル(LM)にとって重要な課題である。
多様なアノテーションスタイルで既存の数学的問題データセットを利用する新しい手法を提案する。
実験結果から,LLaMA-7Bモデルが先行手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-16T05:41:53Z) - Retrieving Multimodal Information for Augmented Generation: A Survey [35.33076940985081]
マルチモーダルな知識を検索することで生成モデルを補助・拡張する手法について検討する。
このような手法は、事実性、推論、解釈可能性、堅牢性といった重要な問題に対する有望な解決策を提供する。
論文 参考訳(メタデータ) (2023-03-20T05:07:41Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。