論文の概要: Psychological Counseling Ability of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.07627v1
- Date: Sat, 01 Mar 2025 08:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 08:47:18.728743
- Title: Psychological Counseling Ability of Large Language Models
- Title(参考訳): 大規模言語モデルの心理的カウンセリング能力
- Authors: Fangyu Peng, Jingxin Nie,
- Abstract要約: 本研究は,1096件の心理カウンセリングスキル質問を用いて,LLMの心理カウンセリング能力を評価した。
中国の質問に対するLCMの正当率は、GLM-3(46.5%)、GPT-4(46.1%)、Gemini(45.0%)、ERNIE-3.5(45.7%)、GPT-3.5(32.9%)である。
チ二乗検定では、中国語と英語の質問に対するLLMのパフォーマンスに有意な違いが認められた。
- 参考スコア(独自算出の注目度): 0.6752538702870792
- License:
- Abstract: With the development of science and the continuous progress of artificial intelligence technology, Large Language Models (LLMs) have begun to be widely utilized across various fields. However, in the field of psychological counseling, the ability of LLMs have not been systematically assessed. In this study, we assessed the psychological counseling ability of mainstream LLMs using 1096 psychological counseling skill questions which were selected from the Chinese National Counselor Level 3 Examination, including Knowledge-based, Analytical-based, and Application-based question types. The analysis showed that the correctness rates of the LLMs for Chinese questions, in descending order, were GLM-3 (46.5%), GPT-4 (46.1%), Gemini (45.0%), ERNIE-3.5 (45.7%) and GPT-3.5 (32.9%). The correctness rates of the LLMs for English questions, in descending order, were ERNIE-3.5 (43.9%), GPT-4 (40.6%), Gemini (36.6%), GLM-3 (29.9%) and GPT-3.5 (29.5%). A chi-square test indicated significant differences in the LLMs' performance on Chinese and English questions. Furthermore, we subsequently utilized the Counselor's Guidebook (Level 3) as a reference for ERNIE-3.5, resulting in a new correctness rate of 59.6%, a 13.8% improvement over its initial rate of 45.8%. In conclusion, the study assessed the psychological counseling ability of LLMs for the first time, which may provide insights for future enhancement and improvement of psychological counseling ability of LLMs.
- Abstract(参考訳): 科学の発展と人工知能技術の継続的な進歩により、大規模言語モデル(LLM)は様々な分野で広く利用されるようになった。
しかし、心理学的カウンセリングの分野では、LSMの能力は体系的に評価されていない。
本研究では,中国国家会計士レベル3試験から選択された1096件の心理カウンセリングスキル質問を,ナレッジベース,分析ベース,アプリケーションベースの質問タイプを含む,メインストリームLLMの心理カウンセリング能力の評価を行った。
分析の結果,中国の質問に対するLLMの正当性率は,GLM-3 (46.5%), GPT-4 (46.1%), Gemini (45.0%), ERNIE-3.5 (45.7%), GPT-3.5 (32.9%)であった。
英語の質問に対するLLMの正当性率は、順に、ERNIE-3.5(43.9%)、GPT-4(40.6%)、ジェミニ(36.6%)、GLM-3(29.9%)、GPT-3.5(29.5%)である。
チ二乗検定では、中国語と英語の質問に対するLLMのパフォーマンスに有意な違いが認められた。
さらに, ERNIE-3.5 の基準として Counselor's Guidebook (Level 3) を用いた結果, 59.6% が新たに修正され, 45.8% が改善した。
結論として, LLMの心理的カウンセリング能力は初めて評価され, LLMの心理的カウンセリング能力の今後の向上と改善に向けた洞察が得られた。
関連論文リスト
- Humans Continue to Outperform Large Language Models in Complex Clinical Decision-Making: A Study with Medical Calculators [20.782328949004434]
大規模言語モデル (LLMs) は、医学的ライセンス試験を用いて、一般的な医学的知識として評価されている。
医科研修生とLCMの双方が医療電卓を推薦する能力について検討した。
論文 参考訳(メタデータ) (2024-11-08T15:50:19Z) - Evaluating the Effectiveness of the Foundational Models for Q&A Classification in Mental Health care [0.18416014644193068]
プレトレーニング言語モデル(PLM)は、メンタルヘルスを変革する可能性がある。
本研究は,精神保健領域における質問紙と回答紙の分類におけるPLMの有効性を評価するものである。
論文 参考訳(メタデータ) (2024-06-23T00:11:07Z) - Multiple Choice Questions and Large Languages Models: A Case Study with Fictional Medical Data [3.471944921180245]
非存在腺であるGlianorexに焦点をあてた架空の医療ベンチマークを開発した。
このアプローチにより、LSMの知識をテストテイク能力から切り離すことができます。
我々は、これらの質問をゼロショット設定で、様々なオープンソース、プロプライエタリ、ドメイン固有のLCMを評価した。
論文 参考訳(メタデータ) (2024-06-04T15:08:56Z) - LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models [46.77647640464652]
Chinese Large Language Models (LLMs)は、最近、様々なNLPベンチマークと実世界のアプリケーションで印象的な能力を実証した。
大規模・完全・多目的知識評価ベンチマークLHMKEを提案する。
初等学校から専門的認定試験まで、30の科目をカバーする75の課題に10,465の質問がある。
論文 参考訳(メタデータ) (2024-03-19T10:11:14Z) - Who is ChatGPT? Benchmarking LLMs' Psychological Portrayal Using
PsychoBench [83.41621219298489]
大規模言語モデル(LLM)の多様な心理学的側面を評価するためのフレームワーク「サイコベンチ」を提案する。
サイコベンチはこれらの尺度を、性格特性、対人関係、モチベーションテスト、感情能力の4つのカテゴリーに分類する。
我々は、安全アライメントプロトコルをバイパスし、LLMの本質的な性質をテストするためにジェイルブレイクアプローチを採用している。
論文 参考訳(メタデータ) (2023-10-02T17:46:09Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge
Evaluation [61.56563631219381]
我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。
Xiezhiは、13の被験者から249,587の質問、Xiezhi- SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問で構成されている。
論文 参考訳(メタデータ) (2023-06-09T09:52:05Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。