論文の概要: From "Help" to Helpful: A Hierarchical Assessment of LLMs in Mental e-Health Applications
- arxiv url: http://arxiv.org/abs/2602.18443v1
- Date: Mon, 12 Jan 2026 12:34:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.558539
- Title: From "Help" to Helpful: A Hierarchical Assessment of LLMs in Mental e-Health Applications
- Title(参考訳): ヘルプ」から「ヘルプフル」へ:メンタルeヘルス分野におけるLCMの階層的評価
- Authors: Philipp Steigerwald, Jens Albrecht,
- Abstract要約: 本研究は、ドイツのカウンセリングメールに対して、6ワードの主語行を生成する11の大言語モデルを評価する。
その結果、プロプライエタリなサービスとプライバシ保護のオープンソース代替物の間のパフォーマンス上のトレードオフが明らかになった。
この研究は、プライバシ、偏見、説明責任を含むメンタルヘルスAIデプロイメントに対する批判的な倫理的考察に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Psychosocial online counselling frequently encounters generic subject lines that impede efficient case prioritisation. This study evaluates eleven large language models generating six-word subject lines for German counselling emails through hierarchical assessment - first categorising outputs, then ranking within categories to enable manageable evaluation. Nine assessors (counselling professionals and AI systems) enable analysis via Krippendorff's $α$, Spearman's $ρ$, Pearson's $r$ and Kendall's $τ$. Results reveal performance trade-offs between proprietary services and privacy-preserving open-source alternatives, with German fine-tuning consistently improving performance. The study addresses critical ethical considerations for mental health AI deployment including privacy, bias and accountability.
- Abstract(参考訳): 心理社会的オンラインカウンセリングは、多くの場合、効率的な症例優先順位付けを妨げる一般的な主題に遭遇する。
本研究は、階層的評価により、ドイツのカウンセリングメールに6ワードの主語線を生成する11の大規模言語モデルを評価し、まず出力を分類し、次にカテゴリ内でランク付けして、管理可能な評価を可能にする。
9人のアセステーター(販売専門家とAIシステム)は、クリッペンドルフの$α$、スピアマンの$ρ$、ピアソンの$r$、ケンドールの$τ$による分析を可能にする。
結果として、プロプライエタリなサービスとプライバシ保護のオープンソース代替品間のパフォーマンス上のトレードオフが明らかになり、ドイツの微調整が継続的にパフォーマンスを改善している。
この研究は、プライバシ、偏見、説明責任を含むメンタルヘルスAIデプロイメントに対する批判的な倫理的考察に対処する。
関連論文リスト
- CARE: An Explainable Computational Framework for Assessing Client-Perceived Therapeutic Alliance Using Large Language Models [19.027335814014528]
本稿では,多次元アライアンススコアを自動的に予測し,カウンセリングテキストから解釈可能な有理性を生成するLLMベースのフレームワークであるCAREを提案する。
CAREはCounselingWAIデータセット上に構築されており、9,516人の専門家による合理性によって強化されている。
実験の結果,CAREはLLMよりも優れており,カウンセラー評価とクライアント認識アライアンスとのギャップを大幅に減らすことがわかった。
論文 参考訳(メタデータ) (2026-02-24T07:52:56Z) - Conversation for Non-verifiable Learning: Self-Evolving LLMs through Meta-Evaluation [56.84819098277464]
CoNLは、マルチエージェントのセルフプレイを通じて生成、評価、メタ評価を統合するフレームワークである。
CoNLは、安定したトレーニングを維持しながら、自己回帰ベースラインよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2026-01-29T09:41:14Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Evaluating AI Counseling in Japanese: Counselor, Client, and Evaluator Roles Assessed by Motivational Interviewing Criteria [0.0]
本研究は,日本語治療における3つのカウンセリングの役割において,大規模言語モデル(LLM)の性能を総合的に評価した最初の事例である。
我々は同時に、カウンセラー人工知能(AI)システム(GPT-4-turbo with zeroshot prompting or Structured Multi-step Dialogue Prompts (SMDP), Claude-3-Opus-SMDP)、クライアントAIシミュレーション、評価AIシステム(o3, Claude-3.7-Sonnet, Gemini-2.5-pro)を評価した。
Geminiはパワーシェアリングを強調し、o3は技術的熟練に焦点を当て、Sonnetは感情表現を優先した。
論文 参考訳(メタデータ) (2025-06-28T21:50:29Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Ranking Generated Answers: On the Agreement of Retrieval Models with Humans on Consumer Health Questions [25.158868133182025]
本稿では,生成型大規模言語モデル(LLM)の出力を評価する手法を提案する。
我々は、注釈付き文書コレクションで訓練されたランキングモデルを、明示的な妥当性の代用として用いている。
ユーザ研究において,本手法は人間専門家の嗜好と相関する。
論文 参考訳(メタデータ) (2024-08-19T09:27:45Z) - Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。
心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。
提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文 参考訳(メタデータ) (2024-06-20T06:42:08Z) - CPsyCoun: A Report-based Multi-turn Dialogue Reconstruction and Evaluation Framework for Chinese Psychological Counseling [27.193022503592342]
中国における心理カウンセリングのための多面的対話再構築・評価フレームワークCPsyCounを提案する。
心理カウンセリングレポートを完全に活用するために、高品質な対話を構築するための2段階のアプローチが考案された。
マルチターン心理相談の効果的な自動評価のための総合評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-05-26T05:18:00Z) - Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。
AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。
我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文 参考訳(メタデータ) (2024-05-23T14:48:15Z) - Understanding the Therapeutic Relationship between Counselors and Clients in Online Text-based Counseling using LLMs [18.605352662843575]
テキストベースのカウンセリングにおける治療提携の進展を理解するために,大規模言語モデル(LLM)を用いた自動アプローチを提案する。
我々は包括的カウンセリングデータセットを収集し、このフレームワークに基づいてサブセット上で複数の専門家評価を行う。
当社の調査結果は、カウンセラーが顧客との強いオンライン関係を育む上で直面する課題を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-19T09:00:10Z) - Psychological Assessments with Large Language Models: A Privacy-Focused
and Cost-Effective Approach [0.0]
本研究では,Redditユーザからのテキストコメントの分析にLLM(Large Language Models)を用いることを検討した。
この作業は、ローカルで実行できる“オープンソース”なLLMを使用することで、データのプライバシが向上する。
その単純さにもかかわらず、評価指標は優れた結果を示しており、プライバシーを重視し、コスト効果の高いアプローチである。
論文 参考訳(メタデータ) (2024-02-05T19:00:02Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。