論文の概要: Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms
- arxiv url: http://arxiv.org/abs/2501.13977v1
- Date: Thu, 23 Jan 2025 00:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:58:56.775591
- Title: Re-ranking Using Large Language Models for Mitigating Exposure to Harmful Content on Social Media Platforms
- Title(参考訳): 大規模言語モデルを用いたソーシャルメディアプラットフォーム上での有害コンテンツへの被曝の軽減
- Authors: Rajvardhan Oak, Muhammad Haroon, Claire Jo, Magdalena Wojcieszak, Anshuman Chhabra,
- Abstract要約: ゼロショットおよび少数ショット設定において,Large Language Models (LLMs) を用いた新たな階層化手法を提案する。
提案手法は, ラベル付きデータを必要とすることなく, 有害なコンテンツ露出を効果的に軽減し, コンテンツシーケンスを動的に評価・再ランクする。
- 参考スコア(独自算出の注目度): 10.421660174482314
- License:
- Abstract: Social media platforms utilize Machine Learning (ML) and Artificial Intelligence (AI) powered recommendation algorithms to maximize user engagement, which can result in inadvertent exposure to harmful content. Current moderation efforts, reliant on classifiers trained with extensive human-annotated data, struggle with scalability and adapting to new forms of harm. To address these challenges, we propose a novel re-ranking approach using Large Language Models (LLMs) in zero-shot and few-shot settings. Our method dynamically assesses and re-ranks content sequences, effectively mitigating harmful content exposure without requiring extensive labeled data. Alongside traditional ranking metrics, we also introduce two new metrics to evaluate the effectiveness of re-ranking in reducing exposure to harmful content. Through experiments on three datasets, three models and across three configurations, we demonstrate that our LLM-based approach significantly outperforms existing proprietary moderation approaches, offering a scalable and adaptable solution for harm mitigation.
- Abstract(参考訳): ソーシャルメディアプラットフォームは、機械学習(ML)と人工知能(AI)によるレコメンデーションアルゴリズムを使用して、ユーザのエンゲージメントを最大化する。
現在のモデレーションの取り組みは、広範囲の人間による注釈付きデータで訓練された分類器に依存し、スケーラビリティに苦しむとともに、新しいタイプの害に適応する。
これらの課題に対処するため,ゼロショットおよび少数ショット設定におけるLarge Language Models (LLM) を用いた新たな再分類手法を提案する。
提案手法は, ラベル付きデータを必要とすることなく, 有害なコンテンツ露出を効果的に軽減し, コンテンツシーケンスを動的に評価・再ランクする。
従来のランキング指標に加えて、有害コンテンツへの露出を減らすための再ランク付けの有効性を評価するための2つの新しい指標も導入する。
3つのデータセット、3つのモデル、そして3つの構成に関する実験を通して、LLMベースのアプローチが既存の独自のモデレーションアプローチを著しく上回り、害軽減のためのスケーラブルで適応可能なソリューションを提供することを示した。
関連論文リスト
- Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models [9.42299478071576]
ソーシャルメディアプラットフォーム上の有害コンテンツは、ユーザーや社会に重大なリスクをもたらす。
現在のアプローチは、人間のモデレーター、教師付き分類器、大量のトレーニングデータに依存している。
我々は,Large Language Models (LLMs) を用いて,テキスト内学習による動的コンテンツのモデレーションを少数行う。
論文 参考訳(メタデータ) (2025-01-23T00:19:14Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs [18.629717934007513]
SPUNGE(SPlit, UNlearn, MerGE)は,任意のアンラーニング手法を用いて有効性を増幅するフレームワークである。
我々はSPUNGEが最近の2つの非学習手法の性能を大幅に向上させることを実証的に実証した。
論文 参考訳(メタデータ) (2024-06-17T17:35:52Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Leveraging Large-scale Multimedia Datasets to Refine Content Moderation
Models [8.147198294451151]
本稿では,大規模マルチメディアデータセットを活用してコンテンツモデレーションモデルを洗練するフレームワークを提案する。
提案手法は,Not Safe for Work (NSFW) を用いて評価し,コンテンツ検出タスクを妨害する。
92.54%のデータがコンテンツが乱れた場合に自動的に注釈付けされるため、これは人間の関与を著しく減少させる。
論文 参考訳(メタデータ) (2022-12-01T17:19:13Z) - Self-Destructing Models: Increasing the Costs of Harmful Dual Uses of
Foundation Models [103.71308117592963]
本稿ではメタラーニングと逆学習の技法を活用した自己破壊モデルの学習アルゴリズムを提案する。
小規模な実験では、MLACは、BERTスタイルのモデルが性別識別を行うために再目的化されることをほとんど防ぐことができることを示す。
論文 参考訳(メタデータ) (2022-11-27T21:43:45Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。