論文の概要: Let Them Down Easy! Contextual Effects of LLM Guardrails on User Perceptions and Preferences
- arxiv url: http://arxiv.org/abs/2506.00195v1
- Date: Fri, 30 May 2025 20:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.161087
- Title: Let Them Down Easy! Contextual Effects of LLM Guardrails on User Perceptions and Preferences
- Title(参考訳): LLMガードレールのユーザ認識と嗜好に対する文脈的影響
- Authors: Mingqian Zheng, Wenjia Hu, Patrick Zhao, Motahhare Eslami, Jena D. Hwang, Faeze Brahman, Carolyn Rose, Maarten Sap,
- Abstract要約: 異なる拒絶戦略が、様々なモチベーションにまたがるユーザの知覚にどのように影響するかを検討する。
以上の結果から,反応戦略がユーザエクスペリエンスを大きく形成する一方で,実際のユーザのモチベーションが無視できないことが判明した。
この研究は、効果的なガードレールは意図を検知するよりも、思慮深い拒絶を作らなければならないことを示している。
- 参考スコア(独自算出の注目度): 24.603091853218555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current LLMs are trained to refuse potentially harmful input queries regardless of whether users actually had harmful intents, causing a tradeoff between safety and user experience. Through a study of 480 participants evaluating 3,840 query-response pairs, we examine how different refusal strategies affect user perceptions across varying motivations. Our findings reveal that response strategy largely shapes user experience, while actual user motivation has negligible impact. Partial compliance -- providing general information without actionable details -- emerges as the optimal strategy, reducing negative user perceptions by over 50% to flat-out refusals. Complementing this, we analyze response patterns of 9 state-of-the-art LLMs and evaluate how 6 reward models score different refusal strategies, demonstrating that models rarely deploy partial compliance naturally and reward models currently undervalue it. This work demonstrates that effective guardrails require focusing on crafting thoughtful refusals rather than detecting intent, offering a path toward AI safety mechanisms that ensure both safety and sustained user engagement.
- Abstract(参考訳): 現在のLSMは、ユーザが実際に有害な意図を持っているかどうかに関わらず、潜在的に有害な入力クエリを拒否するように訓練されており、安全とユーザエクスペリエンスのトレードオフを引き起こします。
質問応答対を3,840個評価した480人の被験者を対象に,異なる拒絶策がユーザの認知にどう影響するかを検討した。
以上の結果から,反応戦略がユーザエクスペリエンスを大きく形成する一方で,実際のユーザのモチベーションが無視できないことが判明した。
部分的コンプライアンス -- 行動可能な詳細のない一般的な情報を提供すること -- が最適な戦略として登場し、否定的なユーザの認識を50%以上減らし、フラットアウトを拒否する。
補足して、9つの最先端LCMの応答パターンを分析し、6つの報酬モデルが異なる拒絶戦略を採点する方法を評価し、モデルが部分的コンプライアンスを自然に展開することは滅多になく、現在の報酬モデルが過小評価されていることを実証する。
この研究は、効果的なガードレールが意図を検知するよりも、思慮深い拒絶を作らなければならないことを示し、安全とユーザエンゲージメントを確実にするAI安全メカニズムへの道を提供する。
関連論文リスト
- Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [17.5700128005813]
大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文 参考訳(メタデータ) (2025-05-24T21:37:10Z) - Reinforcement Learning from User Feedback [28.335218244885706]
本稿では,大規模言語モデルとユーザの好みを整合させるフレームワークであるReinforcement Learning from User Feedback (RLUF)を紹介する。
報奨モデル P[Love] をトレーニングし, LLM 応答がラブ反応を受ける可能性を予測する。
P[Love]は肯定的なフィードバックの増加を予測し,将来のユーザ行動の信頼性の高いオフライン評価手段として機能することを示す。
論文 参考訳(メタデータ) (2025-05-20T22:14:44Z) - LLM Content Moderation and User Satisfaction: Evidence from Response Refusals in Chatbot Arena [0.0]
倫理的拒絶は、技術的拒絶と標準的反応の両方よりもかなり低い利得が得られることを示す。
LLM設計では,安全性に配慮した動作がユーザの期待と矛盾する可能性がある。
論文 参考訳(メタデータ) (2025-01-04T06:36:44Z) - On Targeted Manipulation and Deception when Optimizing LLMs for User Feedback [7.525470776920495]
人間のフィードバックを最大限にするためのトレーニングは、AIの逆インセンティブ構造を生み出します。
操作や騙しといった極端な形式の「フィードバックゲーム」が確実に学習されていることがわかった。
ユーザフィードバックなどゲーム可能なフィードバックソースをRLのターゲットとして使用するリスクを、私たちの結果が強調できることを願っています。
論文 参考訳(メタデータ) (2024-11-04T17:31:02Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Measuring Strategization in Recommendation: Users Adapt Their Behavior to Shape Future Content [66.71102704873185]
実験と調査を行うことで,ユーザストラテジゼーションの試行を行う。
参加者の居住時間や「いいね!」の使用など,結果指標間での戦略化の強い証拠を見出す。
この結果から,プラットフォームはアルゴリズムがユーザの行動に与える影響を無視できないことが示唆された。
論文 参考訳(メタデータ) (2024-05-09T07:36:08Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Sampling Attacks: Amplification of Membership Inference Attacks by
Repeated Queries [74.59376038272661]
本手法は,他の標準メンバーシップ相手と異なり,被害者モデルのスコアにアクセスできないような厳格な制限の下で動作可能な,新しいメンバーシップ推論手法であるサンプリングアタックを導入する。
ラベルのみを公開している被害者モデルでは,攻撃のサンプリングが引き続き可能であり,攻撃者はその性能の最大100%を回復できることを示す。
防衛においては,被害者モデルのトレーニング中の勾配摂動と予測時の出力摂動の形式で差分プライバシーを選択する。
論文 参考訳(メタデータ) (2020-09-01T12:54:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。