Fugu-MT 論文翻訳(概要): Language Shapes Mental Health Evaluations in Large Language Models

論文の概要: Language Shapes Mental Health Evaluations in Large Language Models

arxiv url: http://arxiv.org/abs/2603.06910v1
Date: Fri, 06 Mar 2026 22:15:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:13.394035
Title: Language Shapes Mental Health Evaluations in Large Language Models
Title（参考訳）: 大規模言語モデルにおける言語形状とメンタルヘルス評価
Authors: Jiayi Xu, Xiyang Hu,
Abstract要約: 本研究では,大規模言語モデル (LLM) が精神保健評価において言語間差異を示すか否かを検討する。 GPT-4o と Qwen3 の2つのモデルを用いて,言語がメンタルヘルス関連評価を体系的に変化させるかどうかを検証した。
参考スコア（独自算出の注目度）: 4.845028079612543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study investigates whether large language models (LLMs) exhibit cross-linguistic differences in mental health evaluations. Focusing on Chinese and English, we examine two widely used models, GPT-4o and Qwen3, to assess whether prompt language systematically shifts mental health-related evaluations and downstream decision outcomes. First, we assess models' evaluative orientation toward mental health stigma using multiple validated measurement scales capturing social stigma, self-stigma, and professional stigma. Across all measures, both models produce higher stigma-related responses when prompted in Chinese than in English. Second, we examine whether these differences also manifest in two common downstream decision tasks in mental health. In a binary mental health stigma detection task, sensitivity to stigmatizing content varies across language prompts, with lower sensitivity observed under Chinese prompts. In a depression severity classification task, predicted severity also differs by prompt language, with Chinese prompts associated with more underestimation errors, indicating a systematic downward shift in predicted severity relative to English prompts. Together, these findings suggest that language context can systematically shape evaluative patterns in LLM outputs and shift decision thresholds in downstream tasks.
Abstract（参考訳）: 本研究では,大規模言語モデル (LLM) が精神保健評価において言語間差異を示すか否かを検討する。中国語と英語に着目し,GPT-4oとQwen3という2つの広く用いられているモデルを用いて,言語がメンタルヘルス関連評価と下流決定結果に体系的に変化するか否かを検証した。まず,社会的スティグマ,自己スティグマ,職業的スティグマを計測する複数の評価尺度を用いて,モデルのメンタルヘルススティグマに対する評価的指向性を評価する。すべての指標において、どちらのモデルも、英語よりも中国語で刺激された場合、スティグマ関連の反応がより高くなる。第2に、これらの違いが精神保健における2つの共通下流決定課題にも現れるかどうかを検討する。 2つのメンタルヘルススティグマ検出タスクでは、内容のスティグマ化に対する感受性は言語プロンプトによって異なり、中国のプロンプト下では低い感度が観察される。抑うつ重大度分類タスクでは、予測重大度はプロンプト言語によって異なり、より過小評価エラーに関連する中国語のプロンプトは、イングランドのプロンプトと比較して予測重大度が体系的に下向きにシフトしていることを示している。これらの結果から,LLM出力における評価パターンを体系的に形成し,下流タスクにおける決定しきい値を変更することが可能であることが示唆された。

関連論文リスト

From Monolingual to Bilingual: Investigating Language Conditioning in Large Language Models for Psycholinguistic Tasks [9.837135712999471]
大規模言語モデル(LLM)は強力な言語能力を示すが、言語間の心理言語学的な知識のエンコード方法についてはほとんど分かっていない。本研究では,LLMが言語的アイデンティティの異なる人間的な心理言語学的反応を示すかどうかについて検討する。 Llama-3.3-70B-Instruct と Qwen2.5-72B-Instruct の2つのモデルを評価する。
論文参考訳（メタデータ） (2025-08-04T15:10:44Z)
Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。混乱点(CP)がこの現象の中心であることを示す。比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文参考訳（メタデータ） (2025-05-22T11:29:17Z)
Enhancing Depression Detection with Chain-of-Thought Prompting: From Emotion to Reasoning Using Large Language Models [9.43184936918456]
うつ病は世界中で障害の主な原因の1つである。大規模言語モデルの最近の進歩は、精神的な健康問題に対処する上で有望であることを示している。そこで本研究では,抑うつ検出の性能と解釈性を両立するChain-of-Thought Prompting手法を提案する。
論文参考訳（メタデータ） (2025-02-09T12:30:57Z)
Large Language Models as Neurolinguistic Subjects: Discrepancy between Performance and Competence [49.60849499134362]
本研究では,大言語モデル(LLM)の記号化(形式)および記号化(意味)に関する言語的理解について検討する。ミニマルペアと診断プローブを組み合わせてモデル層間のアクティベーションパターンを解析する新しい手法を用いて,ニューロ言語学的アプローチを提案する。その結果,(1)心理言語学的・神経言語学的手法では,言語能力と能力が異なっていること,(2)直接確率測定では言語能力が正確に評価されないこと,(3)指導のチューニングでは能力が大きく変化しないが,性能は向上しないことがわかった。
論文参考訳（メタデータ） (2024-11-12T04:16:44Z)
Building Multilingual Datasets for Predicting Mental Health Severity through LLMs: Prospects and Challenges [3.0382033111760585]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文参考訳（メタデータ） (2024-09-25T22:14:34Z)
Adapting Mental Health Prediction Tasks for Cross-lingual Learning via Meta-Training and In-context Learning with Large Language Model [3.3590922002216193]
モデルに依存しないメタラーニングと,このギャップに対処するために大規模言語モデル(LLM)を活用する。まず,自己超越型メタラーニングモデルを適用し,迅速な適応と言語間移動のためのモデル初期化を改良する。並行して、LLMのインコンテキスト学習機能を用いて、スワヒリのメンタルヘルス予測タスクにおけるパフォーマンスの精度を評価する。
論文参考訳（メタデータ） (2024-04-13T17:11:35Z)
Semantic Coherence Markers for the Early Diagnosis of the Alzheimer Disease [0.0]
パープレキシティはもともと、与えられた言語モデルがテキストシーケンスを予測するのにどの程度適しているかを評価するための情報理論の尺度として考え出された。我々は2グラムから5グラムまでのN-gramとトランスフォーマーベース言語モデルであるGPT-2を多種多様な言語モデルに適用した。ベストパフォーマンスモデルでは、ADクラスと制御対象の両方から対象を分類する際に、完全精度とFスコア(精度/特異度とリコール/感度のそれぞれ1.00)を達成した。
論文参考訳（メタデータ） (2023-02-02T11:40:16Z)
AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文参考訳（メタデータ） (2021-04-17T20:23:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。