論文の概要: Improving Implicit Hate Speech Detection via a Community-Driven Multi-Agent Framework
- arxiv url: http://arxiv.org/abs/2601.09342v1
- Date: Wed, 14 Jan 2026 10:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.359852
- Title: Improving Implicit Hate Speech Detection via a Community-Driven Multi-Agent Framework
- Title(参考訳): コミュニティ駆動型マルチエージェントフレームワークによる暗黙のヘイト音声検出の改善
- Authors: Ewelina Gajewska, Katarzyna Budzynska, Jarosław A Chudziak,
- Abstract要約: 本研究は、暗黙的に憎しみに満ちた音声に対する文脈的検出フレームワークを提案する。
中央モデレーターエージェントと動的に構築されたコミュニティエージェントからなるマルチエージェントシステムとして実装されている。
我々のアプローチは、公開知識ソースから社会文化的文脈を統合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a contextualised detection framework for implicitly hateful speech, implemented as a multi-agent system comprising a central Moderator Agent and dynamically constructed Community Agents representing specific demographic groups. Our approach explicitly integrates socio-cultural context from publicly available knowledge sources, enabling identity-aware moderation that surpasses state-of-the-art prompting methods (zero-shot prompting, few-shot prompting, chain-of-thought prompting) and alternative approaches on a challenging ToxiGen dataset. We enhance the technical rigour of performance evaluation by incorporating balanced accuracy as a central metric of classification fairness that accounts for the trade-off between true positive and true negative rates. We demonstrate that our community-driven consultative framework significantly improves both classification accuracy and fairness across all target groups.
- Abstract(参考訳): 本研究では,集中型モデレーターエージェントと,特定の人口集団を表すコミュニティエージェントを動的に構築したマルチエージェントシステムとして実装された,暗黙的に憎しみを抱く音声の文脈的検出フレームワークを提案する。
我々のアプローチは、公開知識ソースから社会文化的文脈を明示的に統合し、最先端のプロンプト手法(ゼロショットプロンプト、少数ショットプロンプト、チェーンオブ思想プロンプト)を超えるアイデンティティ認識のモデレーションを可能にし、挑戦的なToxiGenデータセットに対する代替アプローチを可能にします。
正の正と正の負の利率のトレードオフを考慮に入れた分類公正度の中心指標として、バランスの取れた精度を取り入れて、性能評価の技術的厳密さを高める。
コミュニティ主導のコンサルテーティブ・フレームワークは,すべての対象グループにおいて,分類精度と公平性の両方を著しく向上させることを示した。
関連論文リスト
- Fairness-Aware Deepfake Detection: Leveraging Dual-Mechanism Optimization [13.52582347670271]
性別や人種などの異なる人口集団に対する検出モデルのバイアスは、体系的な誤った判断につながる可能性がある。
この課題に対処するために,両機構協調最適化フレームワークを提案する。
本フレームワークは,グループ間およびグループ間公正性を向上するとともに,ドメイン間の全体的な検出精度を維持する。
論文 参考訳(メタデータ) (2025-11-13T10:04:45Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Enhancing Text Classification with a Novel Multi-Agent Collaboration Framework Leveraging BERT [0.0]
本稿では,テキスト分類モデルの精度とロバスト性を高めるために,新しいマルチエージェント協調フレームワークを提案する。
本フレームワークは,低信頼度予測を特殊なマルチエージェントシステムに動的にエスカレートする。
ベンチマークデータセットに対する実証的な評価は,我々のフレームワークが5.5%の精度向上を実現していることを示している。
論文 参考訳(メタデータ) (2025-02-25T21:30:16Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - COT: A Generative Approach for Hate Speech Counter-Narratives via Contrastive Optimal Transport [25.73474734479759]
本研究では, コントラッシブ・最適輸送に基づく新しい枠組みを提案する。
ターゲットインタラクションの維持と、反ナラティブの生成における多様化の促進という課題を効果的に解決する。
提案手法は,複数の側面から評価された現在の手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-06-18T06:24:26Z) - Adversarial Augmentation Policy Search for Domain and Cross-Lingual
Generalization in Reading Comprehension [96.62963688510035]
理解モデルを読むことは、しばしばトレーニングデータセットのニュアンスに過度に適合し、敵対的な評価に失敗する。
本稿では,複数の効果的な敵と自動データ拡張ポリシー探索手法を提案し,対角的評価に対して,読解理解モデルをより堅牢にすることを目的とする。
論文 参考訳(メタデータ) (2020-04-13T17:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。