論文の概要: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena
- arxiv url: http://arxiv.org/abs/2501.03266v1
- Date: Sat, 04 Jan 2025 06:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 16:58:02.838372
- Title: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena
- Title(参考訳): LLMコンテンツモデレーションとユーザ満足度:Chatbot Arenaにおける応答拒否の証拠
- Authors: Stefan Pasch,
- Abstract要約: 我々は,新しい細調整RoBERTaモデルを用いて,約5万個のアリーナ応答対を解析した。
コンテンツモデレーションに対する重大な拒絶のペナルティがみられ、ユーザーは倫理に基づく拒絶を好みのLSM応答の約4分の1の頻度で選択する。
これらの結果は、倫理的保護とユーザの満足度をバランスさせるニュアンスド・モデレーション戦略の必要性を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LLM safety and ethical alignment are widely discussed, but the impact of content moderation on user satisfaction remains underexplored. To address this, we analyze nearly 50,000 Chatbot Arena response-pairs using a novel fine-tuned RoBERTa model, that we trained on hand-labeled data to disentangle refusals due to ethical concerns from other refusals due to technical disabilities or lack of information. Our findings reveal a significant refusal penalty on content moderation, with users choosing ethical-based refusals roughly one-fourth as often as their preferred LLM response compared to standard responses. However, the context and phrasing play critical roles: refusals on highly sensitive prompts, such as illegal content, achieve higher win rates than less sensitive ethical concerns, and longer responses closely aligned with the prompt perform better. These results emphasize the need for nuanced moderation strategies that balance ethical safeguards with user satisfaction. Moreover, we find that the refusal penalty is notably lower in evaluations using the LLM-as-a-Judge method, highlighting discrepancies between user and automated assessments.
- Abstract(参考訳): LLMの安全性と倫理的アライメントは広く議論されているが、コンテンツモデレーションがユーザの満足度に与える影響は未解明のままである。
そこで我々は,技術障害や情報不足による他の拒絶者からの倫理的懸念から,手作業による拒否を抑えるため,手作業でトレーニングしたRoBERTaモデルを用いて,約5万件のChatbot Arena応答ペアを解析した。
本研究の結果,コンテンツモデレーションに対する拒絶は有意に低下しており,倫理的基準に基づく拒絶は標準応答の約4分の1の頻度で選択された。
しかし、文脈や表現は重要な役割を担っている: 違法なコンテンツのような非常に敏感なプロンプトを拒絶し、より敏感な倫理的関心事よりも高い利得率を達成する。
これらの結果は、倫理的保護とユーザの満足度をバランスさせるニュアンスド・モデレーション戦略の必要性を強調している。
また,LLM-as-a-Judge法を用いた評価では,ユーザと自動評価の相違が顕著に低いことが判明した。
関連論文リスト
- Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories [14.605576275135522]
大規模言語モデル(LLM)の価値アライメントを評価することは、伝統的に単一文の逆のプロンプトに依存してきた。
マルチターン対話と物語に基づくシナリオを組み込むことで,単一文プロンプトを超越した値アライメントベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-28T03:31:37Z) - Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。
本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文 参考訳(メタデータ) (2025-03-19T08:45:03Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Fool Me, Fool Me: User Attitudes Toward LLM Falsehoods [13.62116438805314]
本研究では,Large Language Models (LLMs) による偽造応答に関するユーザの嗜好について検討する。
意外なことに、ユーザの61%は、マークされたものよりも、マークされていない偽りの応答を好む。
以上の結果から,LLM学習に影響を及ぼすユーザの嗜好が不注意に偽造を促進させる可能性が示唆された。
論文 参考訳(メタデータ) (2024-12-16T10:10:27Z) - Hesitation and Tolerance in Recommender Systems [33.755867719862394]
ためらいは広く、ユーザエクスペリエンスに大きな影響を与えています。
ユーザーが興味のないコンテンツにより多くの時間を費やすと、ネガティブな感情が生まれます。
我々は,寛容行動を示す信号を特定し,電子商取引と短ビデオプラットフォームの両方からのデータセットを分析した。
論文 参考訳(メタデータ) (2024-12-13T08:14:10Z) - DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs [23.441711206966914]
DIESELは軽量な推論技術であり、任意の自己回帰LDMにシームレスに統合することができる。
LLMの提案したトークンを、潜在空間における定義済みの負の概念と類似性に基づいて再分類することで、応答安全性を向上させる。
論文 参考訳(メタデータ) (2024-11-28T10:33:11Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。
本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Eagle: Ethical Dataset Given from Real Interactions [74.7319697510621]
社会的バイアス、毒性、不道徳な問題を示すChatGPTとユーザ間の実際のインタラクションから抽出されたデータセットを作成します。
我々の実験では、イーグルは、そのような倫理的課題の評価と緩和のために提案された既存のデータセットでカバーされていない相補的な側面を捉えている。
論文 参考訳(メタデータ) (2024-02-22T03:46:02Z) - The Ethics of Interaction: Mitigating Security Threats in LLMs [1.407080246204282]
この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。
われわれは、プロンプト注入、ジェイルブレイク、個人識別情報(PII)露出、性的に明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な戦略戦略のために作り出した緊急性を評価する。
論文 参考訳(メタデータ) (2024-01-22T17:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。