Fugu-MT 論文翻訳(概要): Detecting Stealth Sycophancy in Mental-Health Dialogue with Dynamic Emotional Signature Graphs

論文の概要: Detecting Stealth Sycophancy in Mental-Health Dialogue with Dynamic Emotional Signature Graphs

arxiv url: http://arxiv.org/abs/2605.03472v1
Date: Tue, 05 May 2026 07:56:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-06 19:35:43.829813
Title: Detecting Stealth Sycophancy in Mental-Health Dialogue with Dynamic Emotional Signature Graphs
Title（参考訳）: 動的感情信号グラフを用いたメンタルヘルス対話におけるステルス症状の検出
Authors: Tianze Han, Beining Xu, Hanbo Zhang, Yongming Lu,
Abstract要約: 最終審査員として大規模言語モデルに頼ることなく,多言語対応対話の評価を行う。直接LLM判定器と対称テキスト類似度測定器は治療品質に不適合であることが判明した。この問題に対処するため,動的感情署名グラフ(DESG)を提案する。 DESGは、分離された臨床状態を持つ対話ウィンドウを表現し、非対称な臨床幾何学を用いてそれらをスコアする。
参考スコア（独自算出の注目度）: 4.002154823241671
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: As conversational AI therapists are increasingly used in psychological support settings, reliable offline evaluation of therapeutic response quality remains an open problem. This paper studies multi-domain support-dialogue evaluation without relying on large language models as final judges. We use a direct LLM judge as a baseline that reads raw dialogue text and predicts whether the target response is harmful, productive, or neutral. We find that direct LLM judges and symmetric text-similarity metrics are poorly aligned with therapeutic quality because the target label depends on clinical direction: whether the response moves the user state toward regulation or reframing, leaves it broadly unchanged, or reinforces deterioration through higher risk affect or cognitive-distortion mass. To address this issue, we propose Dynamic Emotional Signature Graphs (DESG), a model-agnostic evaluator that represents dialogue windows with decoupled clinical states and scores them using asymmetric clinical geometry. We evaluate DESG on a constructed diagnostic stress-test benchmark of 3{,}000 dialogue windows from EmpatheticDialogues, ESConv, and CRADLE-Dialogue, covering peer support, counseling dialogue, and crisis-oriented interaction. On the 600-window held-out test aggregate, DESG-Ensemble achieves 0.9353 macro-F1, exceeding ConcatANN by 1.51 percentage points, BERTScore by 19.63 points, and TRACT by 33.81 points. Feature ablations, artifact controls, a 100-window blinded adjudicator audit, and qualitative disagreement cases indicate that the clinical state manifold is the main discriminative substrate, while graph-based trajectory components provide asymmetric scoring and interpretable diagnostics rather than serving as the sole source of performance.
Abstract（参考訳）: 心理的サポート設定において、会話型AIセラピストがますます使われているため、治療応答品質の信頼性の高いオフライン評価は未解決の問題である。本稿では,最終審査員として大規模言語モデルに頼ることなく,多言語対応対話の評価を行う。直接LLM判定器をベースラインとして生の対話テキストを読み、対象の応答が有害か、生産的か、中立かを予測する。対象ラベルが臨床方向に依存しているため,LSMの直接判定と対称的テキスト類似度指標は治療品質と整合性に乏しいことが判明した。この問題を解決するために,非対称な臨床形態を用いて対話窓を分離した状態で表現し,評価するモデル非依存的評価器である動的感情署名グラフ(DESG)を提案する。我々は,EmpatheticDialogues,ESConv,CRADLE-Dialogueから3{,}000の対話ウィンドウを構築された診断ストレステストベンチマークを用いてDESGを評価し,ピアサポート,カウンセリングダイアログ,危機指向インタラクションについて検討した。 600ウィンドウのホールドアウトテスト集計では、DESG-Ensembleは0.9353マクロF1を達成し、ConcatANNを1.51ポイント、BERTScoreを19.63ポイント、TRACTを33.81ポイント上回る。特徴改善,アーティファクトコントロール,100ウィンドウブラインド・アジュディケータ監査,質的不一致事例は,臨床状態多様体が主判別基質であることを示しているが,グラフベースの軌道成分は,パフォーマンスの唯一の源となるのではなく,非対称的なスコアリングと解釈可能な診断を提供する。

関連論文リスト

ADAPTS: Agentic Decomposition for Automated Protocol-agnostic Tracking of Symptoms [36.94429692322632]
ADAPTS(Agentic Decomposition for Automated Protocol-Agnostic Tracking of Symptoms)は、うつ病と不安度の自動評価のためのフレームワークである。このアプローチは、長期臨床面接を症状特異的推論タスクに分解する。レーティングは、オリジナルの人間のレーティングよりも、専門家のベンチマークを近似した。
論文参考訳（メタデータ） (2026-05-04T23:08:42Z)
Agentic Cognitive Profiling: Realigning Automated Alzheimer's Disease Detection with Clinical Construct Validity [66.94391219005291]
本稿では,臨床プロトコルロジックによる自動スクリーニングを実現するエージェント認知プロファイリング(ACP)を提案する。我々の設計の中心は、すべての定量化を決定論的関数呼び出しに委譲することで、測定から意味的理解を分離することである。 ACPは、タスク試験で90.5%のスコアマッチ率、AD予測で85.3%の精度を達成し、一般的な基準を上回っている。
論文参考訳（メタデータ） (2026-03-18T06:15:35Z)
Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning [12.166175637413637]
3つの臨床データセットから17の大規模言語モデル(LLM)を評価する。モデル信念を測定するための"スティック・オア・スウィッチ"評価フレームワークを開発した。実験の結果,マルチターンインタラクションが常に性能を低下させる会話税が明らかにされた。
論文参考訳（メタデータ） (2026-03-12T00:14:35Z)
AgentsEval: Clinically Faithful Evaluation of Medical Imaging Reports via Multi-Agent Reasoning [73.50200033931148]
本稿では,放射線科医の協調診断ワークフローをエミュレートしたマルチエージェントストリーム推論フレームワークであるAgensEvalを紹介する。評価プロセスを基準定義、エビデンス抽出、アライメント、一貫性スコアなどの解釈可能なステップに分割することで、AgensEvalは明確な推論トレースと構造化された臨床フィードバックを提供する。実験結果から,AgensEvalは,言い換え,意味的,スタイリスティックな摂動の下でも頑健な臨床的整合性,意味的忠実性,解釈可能な評価を提供することが示された。
論文参考訳（メタデータ） (2026-01-23T11:59:13Z)
WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue [3.468314243424983]
ASR(Automatic Speech Recognition)は、臨床対話においてますます普及している。標準評価は依然としてエラーエラー率(WER)に大きく依存している。本稿では、WERや他の一般的な指標が転写誤りの臨床的影響と相関するかどうかを基準として検討する。
論文参考訳（メタデータ） (2025-11-20T16:59:20Z)
Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation [5.555479009357263]
EHRポータル経由の非同期患者・クリニックメッセージングは、クリニックのワークロードの増加源である。 1) 5つのドメインと59の粒度のエラーコードからなる臨床基礎的エラーオントロジーを導入し,(2)検索強化評価パイプラインを開発し,(3)拡張性,解釈性,階層的エラー検出を実現するためにDSPyを用いた2段階のプロンプトアーキテクチャを提供する。
論文参考訳（メタデータ） (2025-09-26T16:42:43Z)
MoodAngels: A Retrieval-augmented Multi-agent Framework for Psychiatry Diagnosis [58.67342568632529]
MoodAngelsは、気分障害の診断のための最初の特殊なマルチエージェントフレームワークである。 MoodSynは、合成精神医学の1,173件のオープンソースデータセットである。
論文参考訳（メタデータ） (2025-06-04T09:18:25Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Dialogue is Better Than Monologue: Instructing Medical LLMs via Strategical Conversations [74.83732294523402]
実世界の診断シナリオをシミュレートし,USMLE標準に適合するノイズと難易度を統合する新しいベンチマークを導入する。また、対話に基づく微調整についても検討し、静的データセットを会話形式に変換し、反復的推論プロセスをよりよく捉える。実験の結果、対話調整されたモデルは従来の手法よりも優れており、マルチラウンド推論のシナリオでは9.64%、ノイズの多い環境では6.18%の精度で改善されている。
論文参考訳（メタデータ） (2025-01-29T18:58:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。