論文の概要: GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules
- arxiv url: http://arxiv.org/abs/2603.01724v1
- Date: Mon, 02 Mar 2026 10:50:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.825521
- Title: GMP: A Benchmark for Content Moderation under Co-occurring Violations and Dynamic Rules
- Title(参考訳): GMP: バイオレーションと動的ルールの併用によるコンテンツモデレーションのベンチマーク
- Authors: Houde Dong, Yifei She, Kai Ye, Liangcai Su, Chenxiong Qian, Jie Hao,
- Abstract要約: 大規模言語モデル(LLM)は、以下のガイドラインに適合するが、その判断能力は、ポリシーが不安定であるか、文脈に依存している場合に低下する。
既存の静的ベンチマークのパフォーマンスは、共起違反や動的に変化するルールを含む現実のシナリオに対して、AI判断の堅牢な一般化を真に保証していますか?
- 参考スコア(独自算出の注目度): 10.423914922203265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online content moderation is essential for maintaining a healthy digital environment, and reliance on AI for this task continues to grow. Consider a user comment using national stereotypes to insult a politician. This example illustrates two critical challenges in real-world scenarios: (1) Co-occurring Violations, where a single post violates multiple policies (e.g., prejudice and personal attacks); (2) Dynamic rules of moderation, where determination of a violation depends on platform-specific guidelines that evolve across contexts . The intersection of co-occurring harms and dynamically changing rules highlights a core limitation of current AI systems: although large language models (LLMs) are adept at following fixed guidelines, their judgment capabilities degrade when policies are unstable or context-dependent . In practice, such shortcomings lead to inconsistent moderation: either erroneously restricting legitimate expression or allowing harmful content to remain online . This raises a critical question for evaluation: Does high performance on existing static benchmarks truly guarantee robust generalization of AI judgment to real-world scenarios involving co-occurring violations and dynamically changing rules?
- Abstract(参考訳): オンラインコンテンツモデレーションは、健全なデジタル環境を維持する上で不可欠であり、このタスクに対するAIへの依存は拡大し続けています。
国民のステレオタイプを使って政治家を侮辱するユーザーコメントを考えてみよう。
1つのポストが複数のポリシーに違反している場合(例えば、偏見や個人攻撃)、(2) モデレーションの動的なルールでは、違反の判定は、コンテキストを横断して進化するプラットフォーム固有のガイドラインに依存する。
大規模言語モデル(LLM)は、一定のガイドラインに従うには適していないが、ポリシーが不安定あるいはコンテキスト依存の場合には、その判断能力は低下する。
実際には、このような欠点は、正しい表現を誤って制限するか、有害なコンテンツがオンラインに残ることを許すという、一貫性のないモデレーションにつながります。
既存の静的ベンチマークのパフォーマンスは、共起違反や動的に変化するルールを含む現実のシナリオに対して、AI判断の堅牢な一般化を真に保証しますか?
関連論文リスト
- Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - Executable Governance for AI: Translating Policies into Rules Using LLMs [1.388831902854619]
Policy-to-Tests(P2T)は、自然ポリシー文書を正規化された機械可読ルールに変換するフレームワークである。
フレームワークを単一のポリシーを超えてテストするために、一般的なフレームワーク、セクターガイダンス、エンタープライズ標準に適用します。
これらのAI生成ルールは、スパンレベルとルールレベルのメトリクスに関する強力な人間のベースラインと密接に一致し、ゴールドセットに関するロバストなアノテータ間の合意がある。
論文 参考訳(メタデータ) (2025-12-04T03:11:54Z) - Toward Virtuous Reinforcement Learning [1.3428344011390776]
本稿では、強化学習(RL)における機械倫理の共通パターンを批判する。
代わりに、我々は倫理を政策レベルでの処分として扱う。つまり、インセンティブ、パートナー、文脈が変わるときに維持される比較的安定した習慣である。
論文 参考訳(メタデータ) (2025-12-03T20:30:37Z) - Asking For It: Question-Answering for Predicting Rule Infractions in Online Content Moderation [1.803599876087764]
ModQはルールに敏感なコンテンツモデレーションのための新しい問合せフレームワークである。
モデル変種を2つ実装し、RedditとLemmyの大規模データセットでそれらをトレーニングする。
どちらのモデルも、モデレーション関連ルール違反を特定する上で、最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-07T18:11:27Z) - Cognition-of-Thought Elicits Social-Aligned Reasoning in Large Language Models [17.381122321801556]
大きな言語モデル(LLM)は複雑な推論において優れているが、それでも有害な振る舞いを示すことができる。
本稿では,認知的自己監視ループにLCMを組み込んだ新しい復号時間フレームワークCooTを紹介する。
論文 参考訳(メタデータ) (2025-09-27T18:16:57Z) - Customize Multi-modal RAI Guardrails with Precedent-based predictions [55.63757336900865]
マルチモーダルガードレールは、ユーザ定義ポリシーに基づいて、画像コンテンツを効果的にフィルタリングする必要がある。
既存の微調整手法は、通常、事前に定義されたポリシーの条件予測を行う。
本稿では、入力に類似した先行データポイントの推論過程である「先行情報」に対する条件モデルの判断を提案する。
論文 参考訳(メタデータ) (2025-07-28T03:45:34Z) - Few-shot Policy (de)composition in Conversational Question Answering [54.259440408606515]
本稿では,大規模言語モデル(LLM)を用いて数ショット設定でポリシーコンプライアンスを検出するニューラルシンボリックフレームワークを提案する。
提案手法は,回答すべきサブクエストを抽出し,文脈情報から真理値を割り当て,与えられたポリシーから論理文の集合を明示的に生成することで,政策コンプライアンスに関する会話に対して健全な理由を示す。
本手法は,PCDおよび会話機械読解ベンチマークであるShARCに適用し,タスク固有の微調整を伴わずに競合性能を示す。
論文 参考訳(メタデータ) (2025-01-20T08:40:15Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management [71.99446449877038]
本研究では, 重度尺度, (ii) ターゲットの存在, (iii) 文脈尺度, (iv) 法的尺度の4つの側面を基礎として, より包括的手法であるDemarcation scoreing abusive speechを提案する。
本研究は,ネット上での虐待的スピーチを効果的に解決するための今後の戦略を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-27T21:45:33Z) - CPL-NoViD: Context-Aware Prompt-based Learning for Norm Violation Detection in Online Communities [28.576099654579437]
我々は,ノルム振動検出のための文脈認識型プロンプト学習(CPL-NoViD)を紹介する。
CPL-NoViDは、自然言語のプロンプトを通じてコンテキストを組み込むことでベースラインを上回ります。
標準違反検出における新たな最先端技術を確立し、既存のベンチマークを上回っている。
論文 参考訳(メタデータ) (2023-05-16T23:27:59Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。