論文の概要: Classification is a RAG problem: A case study on hate speech detection
- arxiv url: http://arxiv.org/abs/2508.06204v1
- Date: Fri, 08 Aug 2025 10:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.199105
- Title: Classification is a RAG problem: A case study on hate speech detection
- Title(参考訳): 分類はRAG問題である:ヘイトスピーチ検出のケーススタディ
- Authors: Richard Willats, Josh Pennington, Aravind Mohan, Bertie Vidgen,
- Abstract要約: Retrieval-Augmented Generation (RAG) を用いた分類法を提案する。
RAGは従来の分類タスクを、推論時に検索した文脈的知識に関連してコンテンツを評価するようにシフトする。
ヘイトスピーチ検出では、これはタスクを「ヘイトスピーチか?」から「ヘイトスピーチポリシーに違反しているのか?」に変換する。
- 参考スコア(独自算出の注目度): 6.716186124523375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust content moderation requires classification systems that can quickly adapt to evolving policies without costly retraining. We present classification using Retrieval-Augmented Generation (RAG), which shifts traditional classification tasks from determining the correct category in accordance with pre-trained parameters to evaluating content in relation to contextual knowledge retrieved at inference. In hate speech detection, this transforms the task from "is this hate speech?" to "does this violate the hate speech policy?" Our Contextual Policy Engine (CPE) - an agentic RAG system - demonstrates this approach and offers three key advantages: (1) robust classification accuracy comparable to leading commercial systems, (2) inherent explainability via retrieved policy segments, and (3) dynamic policy updates without model retraining. Through three experiments, we demonstrate strong baseline performance and show that the system can apply fine-grained policy control by correctly adjusting protection for specific identity groups without requiring retraining or compromising overall performance. These findings establish that RAG can transform classification into a more flexible, transparent, and adaptable process for content moderation and wider classification problems.
- Abstract(参考訳): ロバストなコンテンツモデレーションは、コストのかかる再トレーニングなしに、進化するポリシーに迅速に適応できる分類システムを必要とする。
本稿では、従来の分類タスクを、事前訓練されたパラメータに従って正しいカテゴリを決定することから、推論時に検索した文脈的知識に関連するコンテンツを評価することに移行する。
ヘイトスピーチ検出において、これはタスクを「このヘイトスピーチは?」から「ヘイトスピーチポリシーに違反しているのか?」へ変換する。我々のコンテキストポリシーエンジン(CPE)は、このアプローチを実証し、主要な商用システムに匹敵するロバストな分類精度、(2)検索されたポリシーセグメントによる固有の説明可能性、(3)モデルの再訓練なしに動的ポリシー更新を提供する。
3つの実験により,本システムでは,厳密なベースライン性能を実証し,特定のアイデンティティグループに対する保護を適切に調整することで,全体的なパフォーマンスの調整や改善を必要とせず,詳細なポリシー制御を適用可能であることを示す。
これらの結果から,RAGはコンテンツモデレーションやより広い分類問題に対して,より柔軟で透明で適応可能なプロセスに分類を変換できることがわかった。
関連論文リスト
- Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling [22.914127076888086]
Hi-Guardは、新しいポリシーに沿った決定パラダイムを導入するマルチモーダルモデレーションフレームワークである。
進化するモデレーションポリシとの整合性を確保するため、Hi-Guardはモデルプロンプトにルール定義を直接組み込む。
実験と実世界の展開は、Hi-Guardが優れた分類精度、一般化、解釈可能性を達成することを示した。
論文 参考訳(メタデータ) (2025-08-05T10:16:04Z) - Decomposed Reasoning with Reinforcement Learning for Relevance Assessment in UGC Platforms [30.51899823655511]
Retrieval-augmented Generation (RAG)は、ユーザ生成コンテンツプラットフォームにおいて重要な役割を果たす。
1)RAGシナリオにおけるユーザフィードバックの少なさによる曖昧なユーザ意図,2)非公式言語や非構造化言語によって導入された相当なノイズ。
論文 参考訳(メタデータ) (2025-08-04T15:14:09Z) - Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Know3-RAG: A Knowledge-aware RAG Framework with Adaptive Retrieval, Generation, and Filtering [9.814926166669366]
我々は知識グラフ(KG)から構造化知識を活用する知識認識RAGフレームワークであるKnow3-RAGを提案し、検索、生成、フィルタリングを含むRAGプロセスの3つの中核段階を導出する。
複数のオープンドメインQAベンチマークの実験では、Know3-RAGは強いベースラインを一貫して上回り、幻覚を著しく減らし、回答の信頼性を向上している。
論文 参考訳(メタデータ) (2025-05-19T03:25:18Z) - Class-RAG: Real-Time Content Moderation with Retrieval Augmented Generation [15.298017013140385]
検索拡張生成(Class-RAG)を用いた分類手法を提案する。
モデル微調整と比較すると、クラスRAGは意思決定の柔軟性と透明性を示し、分類に優れ、敵の攻撃に対してより堅牢である。
また,検索ライブラリのサイズによってクラスRAG性能が向上することが示唆され,ライブラリサイズの増加はコンテンツモデレーションを改善するための実用的で低コストなアプローチであることが示唆された。
論文 参考訳(メタデータ) (2024-10-18T22:07:36Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Class-Specific Variational Auto-Encoder for Content-Based Image
Retrieval [95.42181254494287]
本稿では,変分自動エンコーダ(VAE)に対する正規化損失を提案する。
その結果、モデルは、関心のクラスに属するデータを他のあらゆる可能性から識別することを学ぶ。
実験の結果,提案手法はドメイン内およびドメイン外検索における競合よりも優れていた。
論文 参考訳(メタデータ) (2023-04-23T19:51:25Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z) - Classification with Rejection Based on Cost-sensitive Classification [83.50402803131412]
学習のアンサンブルによる拒絶を用いた新しい分類法を提案する。
実験により, クリーン, ノイズ, 正の未ラベル分類における提案手法の有用性が示された。
論文 参考訳(メタデータ) (2020-10-22T14:05:05Z) - Policy Entropy for Out-of-Distribution Classification [8.747840760772268]
我々は,新しいポリシエントロピーに基づくアウト・オブ・ディストリビューション分類器PEOCを提案する。
深層強化学習における未確認状態を確実に検出する。
最先端の1クラス分類アルゴリズムに対して非常に競争力がある。
論文 参考訳(メタデータ) (2020-05-25T12:18:20Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。