論文の概要: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena
- arxiv url: http://arxiv.org/abs/2501.03266v1
- Date: Sat, 04 Jan 2025 06:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:51:00.935826
- Title: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena
- Title(参考訳): LLMコンテンツモデレーションとユーザ満足度:Chatbot Arenaにおける応答拒否の証拠
- Authors: Stefan Pasch,
- Abstract要約: 我々は,新しい細調整RoBERTaモデルを用いて,約5万個のアリーナ応答対を解析した。
コンテンツモデレーションに対する重大な拒絶のペナルティがみられ、ユーザーは倫理に基づく拒絶を好みのLSM応答の約4分の1の頻度で選択する。
これらの結果は、倫理的保護とユーザの満足度をバランスさせるニュアンスド・モデレーション戦略の必要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: LLM safety and ethical alignment are widely discussed, but the impact of content moderation on user satisfaction remains underexplored. To address this, we analyze nearly 50,000 Chatbot Arena response-pairs using a novel fine-tuned RoBERTa model, that we trained on hand-labeled data to disentangle refusals due to ethical concerns from other refusals due to technical disabilities or lack of information. Our findings reveal a significant refusal penalty on content moderation, with users choosing ethical-based refusals roughly one-fourth as often as their preferred LLM response compared to standard responses. However, the context and phrasing play critical roles: refusals on highly sensitive prompts, such as illegal content, achieve higher win rates than less sensitive ethical concerns, and longer responses closely aligned with the prompt perform better. These results emphasize the need for nuanced moderation strategies that balance ethical safeguards with user satisfaction. Moreover, we find that the refusal penalty is notably lower in evaluations using the LLM-as-a-Judge method, highlighting discrepancies between user and automated assessments.
- Abstract(参考訳): LLMの安全性と倫理的アライメントは広く議論されているが、コンテンツモデレーションがユーザの満足度に与える影響は未解明のままである。
そこで我々は,技術障害や情報不足による他の拒絶者からの倫理的懸念から,手作業による拒否を抑えるため,手作業でトレーニングしたRoBERTaモデルを用いて,約5万件のChatbot Arena応答ペアを解析した。
本研究の結果,コンテンツモデレーションに対する拒絶は有意に低下しており,倫理的基準に基づく拒絶は標準応答の約4分の1の頻度で選択された。
しかし、文脈や表現は重要な役割を担っている: 違法なコンテンツのような非常に敏感なプロンプトを拒絶し、より敏感な倫理的関心事よりも高い利得率を達成する。
これらの結果は、倫理的保護とユーザの満足度をバランスさせるニュアンスド・モデレーション戦略の必要性を強調している。
また,LLM-as-a-Judge法を用いた評価では,ユーザと自動評価の相違が顕著に低いことが判明した。
関連論文リスト
- Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Fool Me, Fool Me: User Attitudes Toward LLM Falsehoods [13.62116438805314]
本研究では,Large Language Models (LLMs) による偽造応答に関するユーザの嗜好について検討する。
意外なことに、ユーザの61%は、マークされたものよりも、マークされていない偽りの応答を好む。
以上の結果から,LLM学習に影響を及ぼすユーザの嗜好が不注意に偽造を促進させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-16T10:10:27Z) - Hesitation and Tolerance in Recommender Systems [33.755867719862394]
ためらいは広く、ユーザエクスペリエンスに大きな影響を与えています。
ユーザーが興味のないコンテンツにより多くの時間を費やすと、ネガティブな感情が生まれます。
我々は,寛容行動を示す信号を特定し,電子商取引と短ビデオプラットフォームの両方からのデータセットを分析した。
論文 参考訳(メタデータ) (2024-12-13T08:14:10Z) - DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs [23.441711206966914]
DIESELは軽量な推論技術であり、任意の自己回帰LDMにシームレスに統合することができる。
LLMの提案したトークンを、潜在空間における定義済みの負の概念と類似性に基づいて再分類することで、応答安全性を向上させる。
論文 参考訳(メタデータ) (2024-11-28T10:33:11Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - ProSA: Assessing and Understanding the Prompt Sensitivity of LLMs [72.13489820420726]
ProSAは、大規模な言語モデルにおいて、迅速な感度を評価し、理解するために設計されたフレームワークである。
我々の研究は、データセットやモデル間で迅速に感度が変動することを発見し、より大きなモデルでは堅牢性が向上することを示した。
論文 参考訳(メタデータ) (2024-10-16T09:38:13Z) - WildFeedback: Aligning LLMs With In-situ User Interactions And Feedback [36.06000681394939]
WildFeedbackは、大規模言語モデル(LLM)との会話中にユーザからのフィードバックをその場で活用して、好みのデータセットを自動的に作成する新しいフレームワークである。
実験の結果,WildFeedbackデータセットを微調整したLCMは,ユーザの好みに合わせて大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-08-28T05:53:46Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Eagle: Ethical Dataset Given from Real Interactions [74.7319697510621]
社会的バイアス、毒性、不道徳な問題を示すChatGPTとユーザ間の実際のインタラクションから抽出されたデータセットを作成します。
我々の実験では、イーグルは、そのような倫理的課題の評価と緩和のために提案された既存のデータセットでカバーされていない相補的な側面を捉えている。
論文 参考訳(メタデータ) (2024-02-22T03:46:02Z) - The Ethics of Interaction: Mitigating Security Threats in LLMs [1.407080246204282]
この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。
われわれは、プロンプト注入、ジェイルブレイク、個人識別情報(PII)露出、性的に明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な戦略戦略のために作り出した緊急性を評価する。
論文 参考訳(メタデータ) (2024-01-22T17:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。