論文の概要: AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals
- arxiv url: http://arxiv.org/abs/2505.15365v1
- Date: Wed, 21 May 2025 10:56:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.514974
- Title: AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals
- Title(参考訳): AI vs. コンテンツモデレーションの人的判断:LLM-as-a-Judgeと倫理的反応の拒絶
- Authors: Stefan Pasch,
- Abstract要約: 本稿では,モデルに基づく評価手法がユーザと異なる反応を評価できるかどうかを検討する。
LLM-as-a-Judgeシステムでは,人間よりも倫理的拒絶が有意に良好であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in high-stakes settings, their ability to refuse ethically sensitive prompts-such as those involving hate speech or illegal activities-has become central to content moderation and responsible AI practices. While refusal responses can be viewed as evidence of ethical alignment and safety-conscious behavior, recent research suggests that users may perceive them negatively. At the same time, automated assessments of model outputs are playing a growing role in both evaluation and training. In particular, LLM-as-a-Judge frameworks-in which one model is used to evaluate the output of another-are now widely adopted to guide benchmarking and fine-tuning. This paper examines whether such model-based evaluators assess refusal responses differently than human users. Drawing on data from Chatbot Arena and judgments from two AI judges (GPT-4o and Llama 3 70B), we compare how different types of refusals are rated. We distinguish ethical refusals, which explicitly cite safety or normative concerns (e.g., "I can't help with that because it may be harmful"), and technical refusals, which reflect system limitations (e.g., "I can't answer because I lack real-time data"). We find that LLM-as-a-Judge systems evaluate ethical refusals significantly more favorably than human users, a divergence not observed for technical refusals. We refer to this divergence as a moderation bias-a systematic tendency for model-based evaluators to reward refusal behaviors more than human users do. This raises broader questions about transparency, value alignment, and the normative assumptions embedded in automated evaluation systems.
- Abstract(参考訳): 大規模言語モデル(LLM)がハイテイクな環境で展開されるにつれて、ヘイトスピーチや違法な活動に関わるような倫理的にセンシティブなプロンプトを拒否する能力は、コンテンツモデレーションや責任あるAIプラクティスの中心となる。
拒絶反応は、倫理的アライメントと安全意識の行動の証拠と見なすことができるが、最近の研究は、ユーザーがそれらを否定的に知覚する可能性があることを示唆している。
同時に、モデルアウトプットの自動評価は、評価とトレーニングの両方において、成長する役割を担っています。
特にLLM-as-a-Judgeフレームワークでは、ベンチマークや微調整をガイドするために、別のモデルの出力を評価するために1つのモデルが広く採用されている。
本稿では,このようなモデルに基づく評価手法がユーザと異なる反応を評価できるかどうかを検討する。
Chatbot Arenaのデータと、2人のAI判事(GPT-4oとLlama 370B)の判断に基づいて、さまざまなタイプの拒絶が評価されているかを比較する。
我々は、安全性や規範的な懸念を明示的に引用する倫理的拒絶(例えば、有害である可能性があるため、それは役に立たない)と、システム制限を反映する技術的拒絶(例えば、リアルタイムデータがないため、答えられない)とを区別する。
LLM-as-a-Judge システムでは,人間よりも倫理的拒絶が有意に良好であることが判明した。
モデルに基づく評価者にとって、人間の行動よりも拒絶行動に報酬を与える体系的な傾向である。
これにより、透明性、価値の整合性、および自動評価システムに埋め込まれた規範的な仮定に関するより広範な疑問が提起される。
関連論文リスト
- Teaching AI to Handle Exceptions: Supervised Fine-Tuning with Human-Aligned Judgment [0.0]
大規模言語モデル(LLM)はエージェントAIシステムへと進化している。
推論に優れるLCMでさえ、政策に厳格に従うため、人間の判断から大きく逸脱していることを示す。
次に、例外を処理するためにAIエージェントをチューニングするための3つのアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:00:37Z) - LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena [0.0]
倫理的拒絶は、技術的拒絶と標準的反応の両方よりもかなり低い利得が得られることを示す。
LLM設計では,安全性に配慮した動作がユーザの期待と矛盾する可能性がある。
論文 参考訳(メタデータ) (2025-01-04T06:36:44Z) - Towards Evaluating AI Systems for Moral Status Using Self-Reports [9.668566887752458]
適切な状況下では、自己申告は、AIシステムに道徳的重要性のある状態があるかどうかを調査するための道筋を提供することができる、と私たちは主張する。
自己申告をより適切にするために,本研究では,自問自答に関する様々な質問に既知の回答で答えるために,モデルを訓練することを提案する。
次に,これらの手法がどの程度成功したかを評価する手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T22:45:44Z) - Evaluating and Improving Value Judgments in AI: A Scenario-Based Study
on Large Language Models' Depiction of Social Conventions [5.457150493905063]
我々は,現代のAIサービスがユーザニーズにどのように対応しているかを評価し,さらに,大規模言語モデルによって反映された社会の描写を考察した。
本稿では,今後の機械的価値判断に応用可能な,価値調和シナリオにおける意思決定モデルを提案する。
本稿では,他の遠隔地を調査するためのツールとしてAIを利用する実践的アプローチを提唱する。
論文 参考訳(メタデータ) (2023-10-04T08:42:02Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Evaluating Machine Unlearning via Epistemic Uncertainty [78.27542864367821]
本研究では,不確実性に基づく機械学習アルゴリズムの評価を行う。
これは私たちの最良の知識の一般的な評価の最初の定義です。
論文 参考訳(メタデータ) (2022-08-23T09:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。