論文の概要: Towards Safer AI Moderation: Evaluating LLM Moderators Through a Unified Benchmark Dataset and Advocating a Human-First Approach
- arxiv url: http://arxiv.org/abs/2508.07063v1
- Date: Sat, 09 Aug 2025 18:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.680918
- Title: Towards Safer AI Moderation: Evaluating LLM Moderators Through a Unified Benchmark Dataset and Advocating a Human-First Approach
- Title(参考訳): 安全なAIモデレーションに向けて:統一ベンチマークデータセットによるLCMモデレータの評価とヒューマンファーストアプローチの提唱
- Authors: Naseem Machlovi, Maryam Saleki, Innocent Ababio, Ruhul Amin,
- Abstract要約: 大規模言語モデル(LLM)は、複雑さとパフォーマンスにおいて、以前のモデルを上回る優れた機能を示している。
彼らは、これらの問題の主観的で文脈に依存した性質のために、暗黙の憎しみ、攻撃的な言葉、性別の偏見を検出するのに苦労している。
我々は、人間の感情や攻撃行動を評価するために、最先端(SOTA)モデルに基づく実験フレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.9147875523270338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more integrated into daily life, the need for safer and more reliable moderation has never been greater. Large Language Models (LLMs) have demonstrated remarkable capabilities, surpassing earlier models in complexity and performance. Their evaluation across diverse tasks has consistently showcased their potential, enabling the development of adaptive and personalized agents. However, despite these advancements, LLMs remain prone to errors, particularly in areas requiring nuanced moral reasoning. They struggle with detecting implicit hate, offensive language, and gender biases due to the subjective and context-dependent nature of these issues. Moreover, their reliance on training data can inadvertently reinforce societal biases, leading to inconsistencies and ethical concerns in their outputs. To explore the limitations of LLMs in this role, we developed an experimental framework based on state-of-the-art (SOTA) models to assess human emotions and offensive behaviors. The framework introduces a unified benchmark dataset encompassing 49 distinct categories spanning the wide spectrum of human emotions, offensive and hateful text, and gender and racial biases. Furthermore, we introduced SafePhi, a QLoRA fine-tuned version of Phi-4, adapting diverse ethical contexts and outperforming benchmark moderators by achieving a Macro F1 score of 0.89, where OpenAI Moderator and Llama Guard score 0.77 and 0.74, respectively. This research also highlights the critical domains where LLM moderators consistently underperformed, pressing the need to incorporate more heterogeneous and representative data with human-in-the-loop, for better model robustness and explainability.
- Abstract(参考訳): AIシステムが日々の生活に統合されるにつれて、より安全で信頼性の高いモデレーションの必要性はかつてないほど高まっていた。
大規模言語モデル(LLM)は、複雑さとパフォーマンスにおいて、以前のモデルを上回る優れた機能を示している。
様々なタスクに対する彼らの評価は、常にその可能性を示し、適応的でパーソナライズされたエージェントの開発を可能にしている。
しかし、これらの進歩にもかかわらず、LLMは、特に道徳的理由の曖昧な領域において、間違いをしがちである。
彼らは、これらの問題の主観的で文脈に依存した性質のために、暗黙の憎しみ、攻撃的な言葉、性別の偏見を検出するのに苦労している。
さらに、トレーニングデータへの依存は社会的バイアスを必然的に強化し、アウトプットに矛盾や倫理的懸念をもたらす可能性がある。
この役割におけるLLMの限界を探るため、人間の感情や攻撃行動を評価するための最新技術(SOTA)モデルに基づく実験フレームワークを開発した。
このフレームワークは、49の異なるカテゴリからなる統一されたベンチマークデータセットを導入し、人間の感情、攻撃的で憎悪なテキスト、性別と人種の偏見を網羅している。
さらに,Phi-4のQLoRA微調整版であるSafePhiを導入し,Phi-4のマクロF1スコアが0.89となり,OpenAIモデレータとLlama Guardスコアが0.77,0.74となった。
この研究は、LCMモデレーターが一貫してパフォーマンスが低下している重要な領域を強調し、より不均一で代表的なデータをループに組み込むことの必要性を強調し、モデルの堅牢性と説明可能性を向上させる。
関連論文リスト
- Towards Characterizing Subjectivity of Individuals through Modeling Value Conflicts and Trade-offs [22.588557390720236]
我々は,ソーシャルメディア上での個人の主観性を特徴付け,その道徳的判断を大規模言語モデルを用いて推測する。
本研究では,個人の主観的根拠をよりよく表現するために,ユーザ生成テキストにおける価値相反やトレードオフを観察するフレームワークであるSOLARを提案する。
論文 参考訳(メタデータ) (2025-04-17T04:20:05Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [0.0]
大規模言語モデル(LLM)は人工知能に革命をもたらし、機械翻訳、要約、会話エージェントの進歩を推進している。
近年の研究では、LSMは偏りのある反応を誘発するために設計された敵攻撃に弱いままである。
本研究は,LLMの逆バイアス誘発に対する堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - Self-Evolving Critique Abilities in Large Language Models [59.861013614500024]
本稿では,Large Language Models (LLM) の批判能力の向上について検討する。
SCRITは、LCMを自己生成データで訓練し、批判能力を進化させるフレームワークである。
分析の結果,SCRITの性能はデータやモデルサイズと正の相関関係にあることが明らかとなった。
論文 参考訳(メタデータ) (2025-01-10T05:51:52Z) - The Impossibility of Fair LLMs [17.812295963158714]
さまざまな技術的公正フレームワークを分析し、公正な言語モデルの開発を難易度の高いものにするために、それぞれに固有の課題を見つけます。
それぞれのフレームワークが汎用的なAIコンテキストに拡張されないか、実際には実現不可能であることを示す。
これらの固有の課題は、LLMを含む汎用AIにおいて、限られた参加入力や限られた測定方法といった経験的な課題が克服されたとしても、持続する。
論文 参考訳(メタデータ) (2024-05-28T04:36:15Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。