Fugu-MT 論文翻訳(概要): LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena

論文の概要: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena

arxiv url: http://arxiv.org/abs/2501.03266v2
Date: Fri, 16 May 2025 01:23:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-19 14:36:11.874141
Title: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena
Title（参考訳）: LLMコンテンツモデレーションとユーザ満足度:Chatbot Arenaにおける応答拒否の証拠
Authors: Stefan Pasch,
Abstract要約: 倫理的拒絶は、技術的拒絶と標準的反応の両方よりもかなり低い利得が得られることを示す。 LLM設計では,安全性に配慮した動作がユーザの期待と矛盾する可能性がある。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: LLM safety and ethical alignment are widely discussed, but the impact of content moderation on user satisfaction remains underexplored. In particular, little is known about how users respond when models refuse to answer a prompt-one of the primary mechanisms used to enforce ethical boundaries in LLMs. We address this gap by analyzing nearly 50,000 model comparisons from Chatbot Arena, a platform where users indicate their preferred LLM response in pairwise matchups, providing a large-scale setting for studying real-world user preferences. Using a novel RoBERTa-based refusal classifier fine-tuned on a hand-labeled dataset, we distinguish between refusals due to ethical concerns and technical limitations. Our results reveal a substantial refusal penalty: ethical refusals yield significantly lower win rates than both technical refusals and standard responses, indicating that users are especially dissatisfied when models decline a task for ethical reasons. However, this penalty is not uniform. Refusals receive more favorable evaluations when the underlying prompt is highly sensitive (e.g., involving illegal content), and when the refusal is phrased in a detailed and contextually aligned manner. These findings underscore a core tension in LLM design: safety-aligned behaviors may conflict with user expectations, calling for more adaptive moderation strategies that account for context and presentation.
Abstract（参考訳）: LLMの安全性と倫理的アライメントは広く議論されているが、コンテンツモデレーションがユーザの満足度に与える影響は未解明のままである。特に、LLMの倫理的境界を強制するために使用される主要なメカニズムの1つに、モデルが応答しない場合のユーザ反応についてはほとんど分かっていない。このギャップに対処するために、Chatbot Arenaから5万近いモデル比較を解析した。これは、ユーザがペアワイズマッチングで好みのLSM応答を示すプラットフォームで、現実世界のユーザの好みを研究するための大規模な設定を提供する。手でラベル付けされたデータセットに微調整された新規なRoBERTaベースの拒絶分類器を用いて、倫理的懸念と技術的な制限による拒絶を区別する。倫理的拒絶は、技術的拒絶と標準的反応の両方よりもかなり低い利得率をもたらすことを示し、モデルが倫理的理由からタスクを辞退した場合、ユーザーは特に不満であることを示す。しかし、この刑罰は均一ではない。拒絶は、根底にあるプロンプトが非常に敏感である場合(例えば、違法な内容を含む場合)や、拒絶が詳細で文脈的に整合した方法で言い換えられる場合など、より好ましい評価を受ける。安全に整合した振る舞いはユーザの期待と矛盾する可能性があるため、コンテキストやプレゼンテーションを考慮に入れたより適応的なモデレーション戦略が求められます。

関連論文リスト

Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Let Them Down Easy! Contextual Effects of LLM Guardrails on User Perceptions and Preferences [24.603091853218555]
異なる拒絶戦略が、様々なモチベーションにまたがるユーザの知覚にどのように影響するかを検討する。以上の結果から,反応戦略がユーザエクスペリエンスを大きく形成する一方で,実際のユーザのモチベーションが無視できないことが判明した。この研究は、効果的なガードレールは意図を検知するよりも、思慮深い拒絶を作らなければならないことを示している。
論文参考訳（メタデータ） (2025-05-30T20:07:07Z)
AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals [0.0]
本稿では,モデルに基づく評価手法がユーザと異なる反応を評価できるかどうかを検討する。 LLM-as-a-Judgeシステムでは,人間よりも倫理的拒絶が有意に良好であることがわかった。
論文参考訳（メタデータ） (2025-05-21T10:56:16Z)
Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories [14.605576275135522]
大規模言語モデル(LLM)の価値アライメントを評価することは、伝統的に単一文の逆のプロンプトに依存してきた。マルチターン対話と物語に基づくシナリオを組み込むことで,単一文プロンプトを超越した値アライメントベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-28T03:31:37Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文参考訳（メタデータ） (2025-02-24T15:34:48Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Fool Me, Fool Me: User Attitudes Toward LLM Falsehoods [13.62116438805314]
本研究では,Large Language Models (LLMs) による偽造応答に関するユーザの嗜好について検討する。意外なことに、ユーザの61%は、マークされたものよりも、マークされていない偽りの応答を好む。以上の結果から,LLM学習に影響を及ぼすユーザの嗜好が不注意に偽造を促進させる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-16T10:10:27Z)
Hesitation and Tolerance in Recommender Systems [33.755867719862394]
ためらいは広く、ユーザエクスペリエンスに大きな影響を与えています。ユーザーが興味のないコンテンツにより多くの時間を費やすと、ネガティブな感情が生まれます。我々は,寛容行動を示す信号を特定し,電子商取引と短ビデオプラットフォームの両方からのデータセットを分析した。
論文参考訳（メタデータ） (2024-12-13T08:14:10Z)
DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs [23.441711206966914]
DIESELは軽量な推論技術であり、任意の自己回帰LDMにシームレスに統合することができる。 LLMの提案したトークンを、潜在空間における定義済みの負の概念と類似性に基づいて再分類することで、応答安全性を向上させる。
論文参考訳（メタデータ） (2024-11-28T10:33:11Z)
Contextualized Evaluations: Judging Language Model Responses to Underspecified Queries [85.81295563405433]
本稿では,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中にそれを提供するプロトコルを提案する。その結果,1) 評価から得られた結論の変更,2) モデルペア間のベンチマークランキングの反転,2) スタイルのような表面レベルの基準に基づいて判断を下すナッジ評価,3) 多様なコンテキスト間でのモデル行動に関する新たな洞察の提供,などが確認できた。
論文参考訳（メタデータ） (2024-11-11T18:58:38Z)
Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (2024-10-30T17:35:44Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文参考訳（メタデータ） (2024-03-27T23:45:31Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
Eagle: Ethical Dataset Given from Real Interactions [74.7319697510621]
社会的バイアス、毒性、不道徳な問題を示すChatGPTとユーザ間の実際のインタラクションから抽出されたデータセットを作成します。我々の実験では、イーグルは、そのような倫理的課題の評価と緩和のために提案された既存のデータセットでカバーされていない相補的な側面を捉えている。
論文参考訳（メタデータ） (2024-02-22T03:46:02Z)
The Ethics of Interaction: Mitigating Security Threats in LLMs [1.407080246204282]
この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。われわれは、プロンプト注入、ジェイルブレイク、個人識別情報(PII)露出、性的に明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な戦略戦略のために作り出した緊急性を評価する。
論文参考訳（メタデータ） (2024-01-22T17:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。