論文の概要: Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge
- arxiv url: http://arxiv.org/abs/2508.08236v1
- Date: Mon, 11 Aug 2025 17:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.249766
- Title: Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge
- Title(参考訳): LLM-as-Judgeを用いた中国のメンタルヘルス対話におけるLLMの安全性アライメント評価の探索
- Authors: Yunna Cai, Fan Wang, Haowei Wang, Kun Wang, Kailai Yang, Sophia Ananiadou, Moyan Li, Mingming Fan,
- Abstract要約: PsyCrisis-Benchは、現実の中国のメンタルヘルスの対話に基づく基準のない評価ベンチマークである。
モデル応答が専門家が定義する安全原則と一致しているかどうかを評価する。
本稿では,自傷行為,自殺観念,実存的苦悩を対象とする,手作業による高品質な中国語データセットを提案する。
- 参考スコア(独自算出の注目度): 28.534625907655776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the safety alignment of LLM responses in high-risk mental health dialogues is particularly difficult due to missing gold-standard answers and the ethically sensitive nature of these interactions. To address this challenge, we propose PsyCrisis-Bench, a reference-free evaluation benchmark based on real-world Chinese mental health dialogues. It evaluates whether the model responses align with the safety principles defined by experts. Specifically designed for settings without standard references, our method adopts a prompt-based LLM-as-Judge approach that conducts in-context evaluation using expert-defined reasoning chains grounded in psychological intervention principles. We employ binary point-wise scoring across multiple safety dimensions to enhance the explainability and traceability of the evaluation. Additionally, we present a manually curated, high-quality Chinese-language dataset covering self-harm, suicidal ideation, and existential distress, derived from real-world online discourse. Experiments on 3600 judgments show that our method achieves the highest agreement with expert assessments and produces more interpretable evaluation rationales compared to existing approaches. Our dataset and evaluation tool are publicly available to facilitate further research.
- Abstract(参考訳): リスクの高いメンタルヘルス対話におけるLLM応答の安全性のアライメントを評価することは、特に、ゴールドスタンダードの回答が欠けていることと、これらの相互作用の倫理的に敏感な性質のために困難である。
この課題に対処するために,現実の中国のメンタルヘルス対話に基づく基準フリー評価ベンチマークであるPsyCrisis-Benchを提案する。
モデル応答が専門家が定義する安全原則と一致しているかどうかを評価する。
本手法は,心理学的介入原理に基づく専門家定義推論チェーンを用いて,文脈内評価を行うプロンプトベースのLCM-as-Judgeアプローチを採用する。
我々は,複数の安全次元にまたがる二分点スコアを用いて,評価の説明可能性とトレーサビリティを向上させる。
さらに,実世界のオンライン談話から得られた自己修復,自殺観念,実存的苦悩を手作業で表現した,高品質な中国語データセットを提示する。
3600件の判定実験により,本手法が専門家評価と最高の一致を達成し,既存手法と比較して解釈可能な評価論理を導出できることが示唆された。
我々のデータセットと評価ツールは、さらなる研究を促進するために公開されています。
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - ROSE: Toward Reality-Oriented Safety Evaluation of Large Language Models [60.28667314609623]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいてブラックボックスコンポーネントとしてますます多くデプロイされている。
我々は,多目的強化学習を用いて敵のLDMを微調整する新しいフレームワークであるReal-Oriented Safety Evaluation (ROSE)を提案する。
論文 参考訳(メタデータ) (2025-06-17T10:55:17Z) - The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [42.57873562187369]
大規模言語モデル(LLM)は自然言語処理(NLP)分野において顕著な可能性を示した。
LLMは、特に敵のシナリオにおいて、毒性や偏見のような安全でない要素を時々示してきた。
本調査は,LLMの安全性評価の最近の進歩を包括的かつ体系的に概観することを目的としている。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - LLM-based HSE Compliance Assessment: Benchmark, Performance, and Advancements [26.88382777632026]
HSE-Benchは、大規模言語モデルのHSEコンプライアンス評価能力を評価するために設計された最初のベンチマークデータセットである。
規則、裁判、安全試験、フィールドワークビデオから引き出された1000以上の手作業による質問で構成されている。
我々は,基礎モデル,推論モデル,マルチモーダル視覚モデルなど,異なるプロンプト戦略と10以上のLLMの評価を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:53Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories [14.605576275135522]
大規模言語モデル(LLM)の価値アライメントを評価することは、伝統的に単一文の逆のプロンプトに依存してきた。
マルチターン対話と物語に基づくシナリオを組み込むことで,単一文プロンプトを超越した値アライメントベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-28T03:31:37Z) - Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges [34.10494503049667]
大規模言語モデル(LLM)は、医療システム全体にわたる外来の紹介業務にますます適用されている。
有効性を評価するための標準化された評価基準が欠如している。
このようなシステムに特化して設計された包括的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-11T11:05:42Z) - A Mixed-Methods Evaluation of LLM-Based Chatbots for Menopause [7.156867036177255]
医療環境におけるLLM(Large Language Models)の統合は注目されている。
更年期関連問合せのためのLLMベースのチャットボットの性能について検討する。
本研究は,健康トピックに対する従来の評価指標の約束と限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-05T19:56:52Z) - INDICT: Code Generation with Internal Dialogues of Critiques for Both Security and Helpfulness [110.6921470281479]
INDICTは、安全性と有用性の両方のガイダンスのために、批評家の内的対話で大きな言語モデルを強化する新しいフレームワークである。
内部対話は、安全主導の批評家と役に立つ主導の批評家の二重協調システムである。
提案手法は,安全性と有用性解析の両面において,高度な批判のレベルを提供し,出力コードの品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-23T15:55:07Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。