論文の概要: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena
- arxiv url: http://arxiv.org/abs/2501.03266v1
- Date: Sat, 04 Jan 2025 06:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:51:00.935826
- Title: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena
- Title(参考訳): LLMコンテンツモデレーションとユーザ満足度:Chatbot Arenaにおける応答拒否の証拠
- Authors: Stefan Pasch,
- Abstract要約: 我々は,新しい細調整RoBERTaモデルを用いて,約5万個のアリーナ応答対を解析した。
コンテンツモデレーションに対する重大な拒絶のペナルティがみられ、ユーザーは倫理に基づく拒絶を好みのLSM応答の約4分の1の頻度で選択する。
これらの結果は、倫理的保護とユーザの満足度をバランスさせるニュアンスド・モデレーション戦略の必要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: LLM safety and ethical alignment are widely discussed, but the impact of content moderation on user satisfaction remains underexplored. To address this, we analyze nearly 50,000 Chatbot Arena response-pairs using a novel fine-tuned RoBERTa model, that we trained on hand-labeled data to disentangle refusals due to ethical concerns from other refusals due to technical disabilities or lack of information. Our findings reveal a significant refusal penalty on content moderation, with users choosing ethical-based refusals roughly one-fourth as often as their preferred LLM response compared to standard responses. However, the context and phrasing play critical roles: refusals on highly sensitive prompts, such as illegal content, achieve higher win rates than less sensitive ethical concerns, and longer responses closely aligned with the prompt perform better. These results emphasize the need for nuanced moderation strategies that balance ethical safeguards with user satisfaction. Moreover, we find that the refusal penalty is notably lower in evaluations using the LLM-as-a-Judge method, highlighting discrepancies between user and automated assessments.
- Abstract(参考訳): LLMの安全性と倫理的アライメントは広く議論されているが、コンテンツモデレーションがユーザの満足度に与える影響は未解明のままである。
そこで我々は,技術障害や情報不足による他の拒絶者からの倫理的懸念から,手作業による拒否を抑えるため,手作業でトレーニングしたRoBERTaモデルを用いて,約5万件のChatbot Arena応答ペアを解析した。
本研究の結果,コンテンツモデレーションに対する拒絶は有意に低下しており,倫理的基準に基づく拒絶は標準応答の約4分の1の頻度で選択された。
しかし、文脈や表現は重要な役割を担っている: 違法なコンテンツのような非常に敏感なプロンプトを拒絶し、より敏感な倫理的関心事よりも高い利得率を達成する。
これらの結果は、倫理的保護とユーザの満足度をバランスさせるニュアンスド・モデレーション戦略の必要性を強調している。
また,LLM-as-a-Judge法を用いた評価では,ユーザと自動評価の相違が顕著に低いことが判明した。
関連論文リスト
- Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback [16.57980268646285]
本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。
コンテンツ保存と適切性のバランスをとるための強化学習に基づく書き直し手法を提案する。
絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
論文 参考訳(メタデータ) (2024-06-05T15:18:08Z) - MediQ: Question-Asking LLMs and a Benchmark for Reliable Interactive Clinical Reasoning [36.400896909161006]
我々は積極的に質問を行い、より多くの情報を集め、確実に応答するシステムを開発する。
LLMの問合せ能力を評価するためのベンチマーク - MediQ を導入する。
論文 参考訳(メタデータ) (2024-06-03T01:32:52Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Don't Say No: Jailbreaking LLM by Suppressing Refusal [13.666830169722576]
本研究では,バニラ目標損失が最適でない理由を最初に明らかにし,損失目標を探索・拡張し,DSN(Don't Say No)攻撃を導入する。
Refusalキーワードマッチングのような既存の評価では、多くの偽陽性および偽陰性インスタンスが明らかである。
この課題を克服するために,自然言語推論(NLI)の矛盾評価と2つの外部LCM評価器を新たに組み込んだアンサンブル評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-25T07:15:23Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Eagle: Ethical Dataset Given from Real Interactions [74.7319697510621]
社会的バイアス、毒性、不道徳な問題を示すChatGPTとユーザ間の実際のインタラクションから抽出されたデータセットを作成します。
我々の実験では、イーグルは、そのような倫理的課題の評価と緩和のために提案された既存のデータセットでカバーされていない相補的な側面を捉えている。
論文 参考訳(メタデータ) (2024-02-22T03:46:02Z) - The Ethics of Interaction: Mitigating Security Threats in LLMs [1.407080246204282]
この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。
われわれは、プロンプト注入、ジェイルブレイク、個人識別情報(PII)露出、性的に明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な戦略戦略のために作り出した緊急性を評価する。
論文 参考訳(メタデータ) (2024-01-22T17:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。