論文の概要: DialogGuard: Multi-Agent Psychosocial Safety Evaluation of Sensitive LLM Responses
- arxiv url: http://arxiv.org/abs/2512.02282v1
- Date: Mon, 01 Dec 2025 23:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.653149
- Title: DialogGuard: Multi-Agent Psychosocial Safety Evaluation of Sensitive LLM Responses
- Title(参考訳): DialogGuard: 感性LDM反応のマルチエージェント心理社会的安全性評価
- Authors: Han Luo, Guy Laban,
- Abstract要約: 本稿では,Web上での心理社会的リスクを評価するための多エージェントフレームワークであるDialogGuardを紹介する。
DialogGuardは4つのLSM-as-a-judgeパイプラインを通じて、多様なジェネリックモデルに適用することができる。
- 参考スコア(独自算出の注目度): 4.663948718816864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) now mediate many web-based mental- health, crisis, and other emotionally sensitive services, yet their psychosocial safety in these settings remains poorly understood and weakly evaluated. We present DialogGuard, a multi-agent frame- work for assessing psychosocial risks in LLM-generated responses along five high-severity dimensions: privacy violations, discrimi- natory behaviour, mental manipulation, psychological harm, and insulting behaviour. DialogGuard can be applied to diverse gen- erative models through four LLM-as-a-judge pipelines, including single-agent scoring, dual-agent correction, multi-agent debate, and stochastic majority voting, grounded in a shared three-level rubric usable by both human annotators and LLM judges. Using PKU-SafeRLHF with human safety annotations, we show that multi- agent mechanisms detect psychosocial risks more accurately than non-LLM baselines and single-agent judging; dual-agent correction and majority voting provide the best trade-off between accuracy, alignment with human ratings, and robustness, while debate attains higher recall but over-flags borderline cases. We release Dialog- Guard as open-source software with a web interface that provides per-dimension risk scores and explainable natural-language ratio- nales. A formative study with 12 practitioners illustrates how it supports prompt design, auditing, and supervision of web-facing applications for vulnerable users.
- Abstract(参考訳): 大規模言語モデル(LLM)は、今では多くのWebベースのメンタルヘルス、危機、その他の感情に敏感なサービスを媒介しているが、これらの設定における心理的安全性はよく理解されておらず、弱い評価を受けている。
プライバシー侵害, 差別的行動, 精神的操作, 心理的危害, 侮辱行動の5つの重大側面に沿って, LLM生成反応における精神社会的リスクを評価するための多エージェント・フレームワークであるDialogGuardを提案する。
ダイアログガードは、4つのLDM-as-a-judgeパイプラインを通じて、単一エージェントスコア、二重エージェント補正、マルチエージェントディベート、確率的多数決投票を含む多様なジェネリックモデルに適用することができる。
PKU-SafeRLHFと人間の安全アノテーションを用いて、マルチエージェントメカニズムが非LLM基準と単一エージェント判定よりも正確な精神社会的リスクを検出することを示し、二重エージェント補正と多数決は、正確性、人間格付けとの整合性、堅牢性の間の最良のトレードオフを提供する一方で、議論はより高いリコールと過剰な境界線のケースを実現する。
我々は、ダイアログガードをオープンソースソフトウェアとしてリリースし、ディメンション当たりのリスクスコアと説明可能な自然言語比ナイルを提供するWebインターフェースを提供する。
12人の実践者によるフォーマティブな調査では、脆弱なユーザのためのWebアプリケーションの設計、監査、監視の迅速化をサポートする方法が示されている。
関連論文リスト
- Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Confident-Knowledge Diversity Drives Human-Human and Human-AI Free Discussion Synergy and Reveals Pure-AI Discussion Shortfalls [3.335241944417891]
大規模言語モデルが人間の議論で観察される相乗効果を再現できるかどうかを考察する。
本稿では,各参加者をパフォーマンス(正確性)と信頼度でモデル化するエージェント非依存の自信知識フレームワークを提案する。
この枠組みは、信頼できる知識の多様性を定量化し、あるエージェントが他のエージェントが不確実であるときに正しい傾向にある度合いを計算し、信頼インフォームド決定によって利得に対する保守的な上限を得る。
論文 参考訳(メタデータ) (2025-06-15T05:09:20Z) - Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models [75.85319609088354]
SAGE(Sentient Agent as a Judge)は、大規模言語モデルの評価フレームワークである。
SAGEは人間のような感情の変化や内的思考をシミュレートするSentient Agentをインスタンス化する。
SAGEは、真に共感的で社会的に適応的な言語エージェントへの進捗を追跡するための、原則付き、スケーラブルで解釈可能なツールを提供する。
論文 参考訳(メタデータ) (2025-05-01T19:06:10Z) - Personalized Attacks of Social Engineering in Multi-turn Conversations: LLM Agents for Simulation and Detection [19.604708321391012]
ソーシャルメディアプラットフォームに対する社会工学(SE)攻撃は重大なリスクをもたらす。
マルチターン会話を生成することで,SE攻撃機構をシミュレートするLLM-agentic framework,SE-VSimを提案する。
本研究は,被害者の人格に関する事前知識を活用することで,ユーザに対してパーソナライズされた保護を提供するための概念実証SE-OmniGuardを提案する。
論文 参考訳(メタデータ) (2025-03-18T19:14:44Z) - Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety [70.84902425123406]
大規模言語モデル(LLM)で拡張されたマルチエージェントシステムは、集団知能において重要な能力を示す。
しかし、悪意のある目的のためにこのインテリジェンスを誤用する可能性があり、重大なリスクが生じる。
本研究では,エージェント心理学を基盤とした枠組み(PsySafe)を提案し,エージェントのダークパーソナリティ特性がリスク行動にどう影響するかを明らかにする。
実験の結果,エージェント間の集団的危険行動,エージェントが危険な行動を行う際の自己反射,エージェントの心理的評価と危険な行動との相関など,いくつかの興味深い現象が明らかになった。
論文 参考訳(メタデータ) (2024-01-22T12:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。