論文の概要: Who Decides What Is Harmful? Content Moderation Policy Through A Multi-Agent Personalised Inference Framework
- arxiv url: http://arxiv.org/abs/2605.01416v1
- Date: Sat, 02 May 2026 12:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.75998
- Title: Who Decides What Is Harmful? Content Moderation Policy Through A Multi-Agent Personalised Inference Framework
- Title(参考訳): 誰が罪を犯すか? マルチエージェントパーソナライズされた推論フレームワークによるコンテンツモデレーションポリシー
- Authors: Ewelina Gajewska, Michal Wawer, Katarzyna Budzynska, Jaroslaw A. Chudziak,
- Abstract要約: 本稿では,LLMをベースとしたパーソナライズド推論フレームワークを提案する。
我々のアーキテクチャは、ドメイン固有のエキスパートエージェント、コンテンツ分析とエージェント選択をオーケストレーションするマネージャエージェント、ユーザ視点をシミュレートするゴーストプロファイルエージェントを組み合わせる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing scale and complexity of online platforms raises critical policy questions around harmful content, digital well-being, and user autonomy. Traditional content moderation systems rely on centralised, top-down rules, often failing to accommodate the subjective nature of harm perception. This paper proposes an LLM-based multi-agent personalised inference framework that filters content based on unique sensitivity profiles of individual users. Our architecture combines domain-specific Expert Agents, a Manager Agent for orchestrating content analysis and agent selection, and a Ghost Profile Agent for simulating user perspectives, to inform moderation decisions. Evaluated against a range of non-personalised baselines, the system demonstrates up to a 32% improvement in accuracy, showing increased alignment with individual user sensitivities. Beyond technical performance, our framework provides policy-relevant insights for platform governance, providing a scalable way to reconcile moderation policies with societal and individual digital rights
- Abstract(参考訳): オンラインプラットフォームの規模と複雑さの増大は、有害コンテンツ、デジタル幸福、ユーザーの自律性に関する重要なポリシー上の疑問を提起する。
伝統的なコンテンツモデレーションシステムは、中央集権化されたトップダウンルールに依存しており、しばしば害知覚の主観的な性質に適合しない。
本稿では,個人ユーザのユニークな感度プロファイルに基づいてコンテンツをフィルタリングするLLMベースのマルチエージェントパーソナライズド推論フレームワークを提案する。
我々のアーキテクチャは、ドメイン固有のエキスパートエージェント、コンテンツ分析とエージェント選択をオーケストレーションするマネージャエージェント、およびユーザ視点をシミュレートするゴーストプロファイルエージェントを組み合わせて、モデレーション決定を通知する。
個人化されていないベースラインに対して評価した結果、精度は最大で32%向上し、個々のユーザ感性との整合性が向上した。
技術的パフォーマンス以外にも、当社のフレームワークはプラットフォームガバナンスに関する政策関連洞察を提供し、モデレーションポリシーを社会的および個人のデジタル権利と整合させるスケーラブルな方法を提供する。
関連論文リスト
- Agent-Based User-Adaptive Filtering for Categorized Harassing Communication [0.0]
オンラインソーシャルネットワークにおける分類されたハラスメント通信のパーソナライズされたフィルタリングのためのエージェントベースのフレームワークを提案する。
均一なフィルタリングルールを適用するグローバルなモデレーションシステムとは異なり、我々のアプローチは適応的なフィルタリングエージェントを通して、ユーザ固有の許容レベルと嗜好をモデル化する。
論文 参考訳(メタデータ) (2026-02-28T01:52:48Z) - Decision Quality Evaluation Framework at Pinterest [0.36944296923226316]
この枠組みは、課題専門専門家(SME)がキュレートした高信頼のゴールデンセット(GDS)を中心にしている。
データセットのカバレッジを効率的に拡張するために、確率スコアを用いたインテリジェントな自動サンプリングパイプラインを導入する。
このフレームワークは、主観的な評価から、コンテンツ安全システムを管理するためのデータ駆動的で定量的なプラクティスへの移行を可能にする。
論文 参考訳(メタデータ) (2026-02-17T18:45:55Z) - Real-Time Personalized Content Adaptation through Matrix Factorization and Context-Aware Federated Learning [0.0]
本研究では,ソーシャルメディアプラットフォームにおけるユーザインタラクションとコンテンツ関連性を高めるための多面的アプローチを提案する。
パーソナライズされたLLMフェデレーション学習モデルとコンテキストベースのソーシャルメディアモデルを導入する。
主要なモジュールは、ユーザー生成コンテンツの分類、ユーザーペルソナスコアの計算、友人ネットワークからの関連投稿の特定に重点を置いている。
論文 参考訳(メタデータ) (2025-11-23T15:18:11Z) - Personalized Reasoning: Just-In-Time Personalization and Why LLMs Fail At It [81.50711040539566]
現在の大規模言語モデル(LLM)開発は、タスク解決と優先順位調整を別の課題として扱う。
静的ベンチマークを対話型パーソナライズタスクに変換する評価手法であるPreFDISCOを紹介する。
我々のフレームワークは、ユーザコンテキストに応じて、同じ質問が異なる推論チェーンを必要とするシナリオを作成します。
論文 参考訳(メタデータ) (2025-09-30T18:55:28Z) - Customize Multi-modal RAI Guardrails with Precedent-based predictions [55.63757336900865]
マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。
既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。
本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
論文 参考訳(メタデータ) (2025-07-28T03:45:34Z) - Trust-Oriented Adaptive Guardrails for Large Language Models [9.719986610417441]
ガードレールは、有害または有害な応答を抑えることで、大きな言語モデル(LLM)が人間の価値と整合することを保証するように設計されている。
既存のガードレールには、さまざまなユーザグループのニーズを満たすための、十分に確立された方法論が欠如している。
ユーザ信頼度に基づいて,機密コンテンツへの動的アクセスを適度に行うための適応ガードレール機構を導入する。
論文 参考訳(メタデータ) (2024-08-16T18:07:48Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z) - Personalized multi-faceted trust modeling to determine trust links in
social media and its potential for misinformation management [61.88858330222619]
ソーシャルメディアにおけるピア間の信頼関係を予測するためのアプローチを提案する。
本稿では,データ駆動型多面信頼モデルを提案する。
信頼を意識したアイテムレコメンデーションタスクで説明され、提案したフレームワークを大規模なYelpデータセットのコンテキストで評価する。
論文 参考訳(メタデータ) (2021-11-11T19:40:51Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Style Normalization and Restitution for Generalizable Person
Re-identification [89.482638433932]
我々は、ソースドメイン上でモデルをトレーニングするが、ターゲットドメイン上での一般化や性能をよく行うことのできる、一般化可能な人物ReIDフレームワークを設計する。
本稿では,シンプルで効果的なスタイル正規化・再構成(SNR)モジュールを提案する。
SNRモジュールによって強化された我々のモデルは、複数の広く使われているReIDベンチマークにおいて最先端のドメイン一般化アプローチよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-05-22T07:15:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。