Fugu-MT 論文翻訳(概要): LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena

論文の概要: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena

arxiv url: http://arxiv.org/abs/2501.03266v1
Date: Sat, 04 Jan 2025 06:36:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-08 16:58:02.838372
Title: LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena
Title（参考訳）: LLMコンテンツモデレーションとユーザ満足度:Chatbot Arenaにおける応答拒否の証拠
Authors: Stefan Pasch,
Abstract要約: 我々は,新しい細調整RoBERTaモデルを用いて,約5万個のアリーナ応答対を解析した。コンテンツモデレーションに対する重大な拒絶のペナルティがみられ、ユーザーは倫理に基づく拒絶を好みのLSM応答の約4分の1の頻度で選択する。これらの結果は、倫理的保護とユーザの満足度をバランスさせるニュアンスド・モデレーション戦略の必要性を強調している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: LLM safety and ethical alignment are widely discussed, but the impact of content moderation on user satisfaction remains underexplored. To address this, we analyze nearly 50,000 Chatbot Arena response-pairs using a novel fine-tuned RoBERTa model, that we trained on hand-labeled data to disentangle refusals due to ethical concerns from other refusals due to technical disabilities or lack of information. Our findings reveal a significant refusal penalty on content moderation, with users choosing ethical-based refusals roughly one-fourth as often as their preferred LLM response compared to standard responses. However, the context and phrasing play critical roles: refusals on highly sensitive prompts, such as illegal content, achieve higher win rates than less sensitive ethical concerns, and longer responses closely aligned with the prompt perform better. These results emphasize the need for nuanced moderation strategies that balance ethical safeguards with user satisfaction. Moreover, we find that the refusal penalty is notably lower in evaluations using the LLM-as-a-Judge method, highlighting discrepancies between user and automated assessments.
Abstract（参考訳）: LLMの安全性と倫理的アライメントは広く議論されているが、コンテンツモデレーションがユーザの満足度に与える影響は未解明のままである。そこで我々は,技術障害や情報不足による他の拒絶者からの倫理的懸念から,手作業による拒否を抑えるため,手作業でトレーニングしたRoBERTaモデルを用いて,約5万件のChatbot Arena応答ペアを解析した。本研究の結果,コンテンツモデレーションに対する拒絶は有意に低下しており,倫理的基準に基づく拒絶は標準応答の約4分の1の頻度で選択された。しかし、文脈や表現は重要な役割を担っている: 違法なコンテンツのような非常に敏感なプロンプトを拒絶し、より敏感な倫理的関心事よりも高い利得率を達成する。これらの結果は、倫理的保護とユーザの満足度をバランスさせるニュアンスド・モデレーション戦略の必要性を強調している。また,LLM-as-a-Judge法を用いた評価では,ユーザと自動評価の相違が顕著に低いことが判明した。

関連論文リスト

Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Let Them Down Easy! Contextual Effects of LLM Guardrails on User Perceptions and Preferences [24.603091853218555]
異なる拒絶戦略が、様々なモチベーションにまたがるユーザの知覚にどのように影響するかを検討する。以上の結果から,反応戦略がユーザエクスペリエンスを大きく形成する一方で,実際のユーザのモチベーションが無視できないことが判明した。この研究は、効果的なガードレールは意図を検知するよりも、思慮深い拒絶を作らなければならないことを示している。
論文参考訳（メタデータ） (2025-05-30T20:07:07Z)
AI vs. Human Judgment of Content Moderation: LLM-as-a-Judge and Ethics-Based Response Refusals [0.0]
本稿では,モデルに基づく評価手法がユーザと異なる反応を評価できるかどうかを検討する。 LLM-as-a-Judgeシステムでは,人間よりも倫理的拒絶が有意に良好であることがわかった。
論文参考訳（メタデータ） (2025-05-21T10:56:16Z)
Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories [14.605576275135522]
大規模言語モデル(LLM)の価値アライメントを評価することは、伝統的に単一文の逆のプロンプトに依存してきた。マルチターン対話と物語に基づくシナリオを組み込むことで,単一文プロンプトを超越した値アライメントベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-28T03:31:37Z)
Right Answer, Wrong Score: Uncovering the Inconsistencies of LLM Evaluation in Multiple-Choice Question Answering [78.89231943329885]
大規模言語モデル(LLM)を評価するために最も広く使われているタスクの1つは、Multiple-Choice Question Answering (MCQA)である。本研究は,MCQA評価戦略の不整合を軽視し,不正確かつ誤ったモデル比較に繋がる可能性がある。
論文参考訳（メタデータ） (2025-03-19T08:45:03Z)
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文参考訳（メタデータ） (2025-02-24T15:34:48Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Fool Me, Fool Me: User Attitudes Toward LLM Falsehoods [13.62116438805314]
本研究では,Large Language Models (LLMs) による偽造応答に関するユーザの嗜好について検討する。意外なことに、ユーザの61%は、マークされたものよりも、マークされていない偽りの応答を好む。以上の結果から,LLM学習に影響を及ぼすユーザの嗜好が不注意に偽造を促進させる可能性が示唆された。
論文参考訳（メタデータ） (2024-12-16T10:10:27Z)
Hesitation and Tolerance in Recommender Systems [33.755867719862394]
ためらいは広く、ユーザエクスペリエンスに大きな影響を与えています。ユーザーが興味のないコンテンツにより多くの時間を費やすと、ネガティブな感情が生まれます。我々は,寛容行動を示す信号を特定し,電子商取引と短ビデオプラットフォームの両方からのデータセットを分析した。
論文参考訳（メタデータ） (2024-12-13T08:14:10Z)
DIESEL -- Dynamic Inference-Guidance via Evasion of Semantic Embeddings in LLMs [23.441711206966914]
DIESELは軽量な推論技術であり、任意の自己回帰LDMにシームレスに統合することができる。 LLMの提案したトークンを、潜在空間における定義済みの負の概念と類似性に基づいて再分類することで、応答安全性を向上させる。
論文参考訳（メタデータ） (2024-11-28T10:33:11Z)
Contextualized Evaluations: Judging Language Model Responses to Underspecified Queries [85.81295563405433]
本稿では,不特定クエリを取り巻くコンテキストを合成的に構築し,評価中にそれを提供するプロトコルを提案する。その結果,1) 評価から得られた結論の変更,2) モデルペア間のベンチマークランキングの反転,2) スタイルのような表面レベルの基準に基づいて判断を下すナッジ評価,3) 多様なコンテキスト間でのモデル行動に関する新たな洞察の提供,などが確認できた。
論文参考訳（メタデータ） (2024-11-11T18:58:38Z)
Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文参考訳（メタデータ） (2024-10-30T17:35:44Z)
Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文参考訳（メタデータ） (2024-10-18T17:32:22Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。当社のアプローチは,DPOをかなりのマージンで継続的に向上させることを示す。本手法は,嗜好データの有用性を最大化するだけでなく,未学習の問題も軽減し,データ拡張を超えてその広範な効果を実証する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文参考訳（メタデータ） (2024-03-27T23:45:31Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
Eagle: Ethical Dataset Given from Real Interactions [74.7319697510621]
社会的バイアス、毒性、不道徳な問題を示すChatGPTとユーザ間の実際のインタラクションから抽出されたデータセットを作成します。我々の実験では、イーグルは、そのような倫理的課題の評価と緩和のために提案された既存のデータセットでカバーされていない相補的な側面を捉えている。
論文参考訳（メタデータ） (2024-02-22T03:46:02Z)
The Ethics of Interaction: Mitigating Security Threats in LLMs [1.407080246204282]
この論文は、社会や個人のプライバシに対するこのようなセキュリティ上の脅威に対する、倫理的な悪影響について論じている。われわれは、プロンプト注入、ジェイルブレイク、個人識別情報(PII)露出、性的に明示的なコンテンツ、ヘイトベースのコンテンツという5つの主要な脅威を精査し、彼らの批判的な倫理的結果と、彼らが堅牢な戦略戦略のために作り出した緊急性を評価する。
論文参考訳（メタデータ） (2024-01-22T17:11:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。