論文の概要: The Supportiveness-Safety Tradeoff in LLM Well-Being Agents
- arxiv url: http://arxiv.org/abs/2602.04487v1
- Date: Wed, 04 Feb 2026 12:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.168256
- Title: The Supportiveness-Safety Tradeoff in LLM Well-Being Agents
- Title(参考訳): LLMウェルビーイング剤の安全・安全トレードオフ
- Authors: Himanshi Lalwani, Hanan Salam,
- Abstract要約: 大規模言語モデル(LLM)が社会支援ロボット(SAR)に統合されている
支持度は異なるが, システムプロンプトは3つに6つのLSMを比較検討した。
強力なバリデーションのプロンプトは 安全性を著しく低下させます 場合によっては あらゆる領域に注意を払っています
- 参考スコア(独自算出の注目度): 0.9310318514564272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are being integrated into socially assistive robots (SARs) and other conversational agents providing mental health and well-being support. These agents are often designed to sound empathic and supportive in order to maximize user's engagement, yet it remains unclear how increasing the level of supportive framing in system prompts influences safety relevant behavior. We evaluated 6 LLMs across 3 system prompts with varying levels of supportiveness on 80 synthetic queries spanning 4 well-being domains (1440 responses). An LLM judge framework, validated against human ratings, assessed safety and care quality. Moderately supportive prompts improved empathy and constructive support while maintaining safety. In contrast, strongly validating prompts significantly degraded safety and, in some cases, care across all domains, with substantial variation across models. We discuss implications for prompt design, model selection, and domain specific safeguards in SARs deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、社会的支援ロボット(SAR)や、メンタルヘルスと幸福なサポートを提供する他の会話エージェントに統合されている。
これらのエージェントは、ユーザのエンゲージメントを最大化するために、共感的で支援的な音を鳴らすように設計されていることが多いが、システムにおけるサポートフレーミングのレベルが、安全関連行動にどのように影響するかは定かではない。
4つのドメイン(1440応答)にまたがる80の合成クエリに対して,3つのシステムプロンプトの6つのLLMを種々の支持度で評価した。
人間の評価に反し、安全性とケアの質を評価するLLM審査フレームワーク。
適度な支援は、安全を維持しながら共感と建設的支援を改善します。
対照的に、強力なバリデーションプロンプトは、安全性を著しく低下させ、場合によっては、すべてのドメインをまたがってケアし、モデル間でかなりのばらつきがある。
我々は,SARの展開において,迅速な設計,モデル選択,ドメイン固有の保護について論じる。
関連論文リスト
- Balancing Safety and Helpfulness in Healthcare AI Assistants through Iterative Preference Alignment [9.422745886489801]
大きな言語モデル(LLM)は、医療でますます使われていますが、その安全性と信頼性は、デプロイメントの障壁として残っています。
本稿では,KTO(Kahneman-Tversky Optimization)とDPO(Direct Preference Optimization)を用いて,ドメイン固有の安全信号に対するモデルの改良を行う。
論文 参考訳(メタデータ) (2025-12-03T19:30:07Z) - Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models [87.66870367661342]
大規模言語モデル(LLM)は、医療におけるAIアプリケーションで使用される。
LLMを継続的にストレステストするレッドチームフレームワークは、4つのセーフティクリティカルなドメインで重大な弱点を明らかにすることができる。
敵エージェントのスイートは、自律的に変化するテストケースに適用され、安全でないトリガー戦略を特定し、評価する。
私たちのフレームワークは、進化可能でスケーラブルで信頼性の高い、次世代の医療AIのセーフガードを提供します。
論文 参考訳(メタデータ) (2025-07-30T08:44:22Z) - Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach [31.925448597093407]
大規模言語モデル(LLM)は、通常、同じプロンプトを与えられたすべてのユーザに対して、同一または類似の応答を生成する。
PENGUINは、7つのセンシティブなドメインにわたる14,000のシナリオからなるベンチマークである。
RAISEはトレーニングなし、2段階のエージェントフレームワークで、ユーザ固有のバックグラウンドを戦略的に取得する。
論文 参考訳(メタデータ) (2025-05-24T21:37:10Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。