論文の概要: A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context
- arxiv url: http://arxiv.org/abs/2501.06859v1
- Date: Sun, 12 Jan 2025 16:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:59.098992
- Title: A Comprehensive Evaluation of Large Language Models on Mental Illnesses in Arabic Context
- Title(参考訳): アラビア語文脈における大規模言語モデルによる精神疾患の包括的評価
- Authors: Noureldin Zahran, Aya E. Fouda, Radwa J. Hanafy, Mohammed E. Fouda,
- Abstract要約: メンタルヘルス障害はアラブ世界で公衆衛生の懸念が高まっている。
本研究は,多様なメンタルヘルスデータセットに基づいて,8つの大言語モデル(LLM)を包括的に評価する。
- 参考スコア(独自算出の注目度): 0.9074663948713616
- License:
- Abstract: Mental health disorders pose a growing public health concern in the Arab world, emphasizing the need for accessible diagnostic and intervention tools. Large language models (LLMs) offer a promising approach, but their application in Arabic contexts faces challenges including limited labeled datasets, linguistic complexity, and translation biases. This study comprehensively evaluates 8 LLMs, including general multi-lingual models, as well as bi-lingual ones, on diverse mental health datasets (such as AraDepSu, Dreaddit, MedMCQA), investigating the impact of prompt design, language configuration (native Arabic vs. translated English, and vice versa), and few-shot prompting on diagnostic performance. We find that prompt engineering significantly influences LLM scores mainly due to reduced instruction following, with our structured prompt outperforming a less structured variant on multi-class datasets, with an average difference of 14.5\%. While language influence on performance was modest, model selection proved crucial: Phi-3.5 MoE excelled in balanced accuracy, particularly for binary classification, while Mistral NeMo showed superior performance in mean absolute error for severity prediction tasks. Few-shot prompting consistently improved performance, with particularly substantial gains observed for GPT-4o Mini on multi-class classification, boosting accuracy by an average factor of 1.58. These findings underscore the importance of prompt optimization, multilingual analysis, and few-shot learning for developing culturally sensitive and effective LLM-based mental health tools for Arabic-speaking populations.
- Abstract(参考訳): メンタルヘルス障害はアラブ世界で公衆衛生の懸念が高まり、アクセス可能な診断と介入ツールの必要性を強調している。
大きな言語モデル(LLM)は有望なアプローチを提供するが、アラビアの文脈におけるそれらの応用は、限られたラベル付きデータセット、言語的複雑さ、翻訳バイアスなどの課題に直面している。
本研究は,AraDepSu,Dreaddit,MedMCQAなどの多様なメンタルヘルスデータセットに基づいて,一般的な多言語モデルとバイリンガルモデルを含む8つのLLMを包括的に評価し,迅速な設計,言語構成(ネイティブアラビア語対翻訳英語,およびその逆)の影響,および診断性能に対するわずかなプロンプトについて検討した。
提案手法がLLMスコアに大きく影響を与えるのは, 命令の減弱によるものであり, 構造的プロンプトは, マルチクラスデータセットにおいて, 14.5\%の差で, より構造化の少ない変種より優れることがわかった。
Phi-3.5 MoEはバランスの取れた精度、特にバイナリ分類では優れているが、Mistral NeMoは重度予測タスクでは平均絶対誤差で優れた性能を示した。
特にGPT-4o Miniのマルチクラス分類では、パフォーマンスが改善し、平均1.58倍の精度が向上した。
これらの知見は、アラビア語話者を対象とした文化的に敏感で効果的なLLMベースのメンタルヘルスツールを開発する上で、迅速な最適化、多言語分析、および少数ショット学習の重要性を浮き彫りにした。
関連論文リスト
- Bridging Language Barriers in Healthcare: A Study on Arabic LLMs [1.2006896500048552]
本稿では,多言語理解と医学知識の両方に熟練した大規模言語モデルを開発する上での課題について考察する。
言語比率を慎重に調整した大規模モデルは、母国語の臨床課題において優れた性能を発揮することが判明した。
論文 参考訳(メタデータ) (2025-01-16T20:24:56Z) - SLAM: Towards Efficient Multilingual Reasoning via Selective Language Alignment [78.4550589538805]
本稿では,多言語性を扱うレイヤを正確に識別し,微調整する,効率的な多言語推論アライメント手法を提案する。
実験の結果, SLAM法は7Bおよび13BLLMのパラメータの6.5-8%を含む6層のフィードフォワードサブ層のみをチューニングできることがわかった。
論文 参考訳(メタデータ) (2025-01-07T10:29:43Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Advancing Complex Medical Communication in Arabic with Sporo AraSum: Surpassing Existing Large Language Models [0.0]
本症例では、アラビアのNLPモデルであるJAISに対して、アラビア語臨床文書に適した言語モデルであるスポロ・アラサムを評価した。
その結果,Sporo AraSumはAI中心の定量値とPDQI-9の修正版で測定された定性的属性において,JAISを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-20T18:10:19Z) - Severity Prediction in Mental Health: LLM-based Creation, Analysis,
Evaluation of a Novel Multilingual Dataset [3.4146360486107987]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文 参考訳(メタデータ) (2024-09-25T22:14:34Z) - How Does Quantization Affect Multilingual LLMs? [50.867324914368524]
量子化技術は、大規模な言語モデルの推論速度と展開を改善するために広く使われている。
量子化多言語LLMの徹底的な分析を行い、言語間の性能と様々なスケールに焦点をあてる。
論文 参考訳(メタデータ) (2024-07-03T15:39:40Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Adapting Mental Health Prediction Tasks for Cross-lingual Learning via Meta-Training and In-context Learning with Large Language Model [3.3590922002216193]
モデルに依存しないメタラーニングと,このギャップに対処するために大規模言語モデル(LLM)を活用する。
まず,自己超越型メタラーニングモデルを適用し,迅速な適応と言語間移動のためのモデル初期化を改良する。
並行して、LLMのインコンテキスト学習機能を用いて、スワヒリのメンタルヘルス予測タスクにおけるパフォーマンスの精度を評価する。
論文 参考訳(メタデータ) (2024-04-13T17:11:35Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - Distributionally Robust Multilingual Machine Translation [94.51866646879337]
本稿では,分散的ロバストな最適化に基づくMNMT(Multilingual Neural Machine Translation)の新しい学習目標を提案する。
この目的を,反復的最適応答方式を用いて,大規模翻訳コーパスに対して実用的に最適化する方法を示す。
本手法は,多対一の翻訳設定と多対多の翻訳設定の両方において,平均と言語毎のパフォーマンスにおいて,強いベースライン法より一貫して優れる。
論文 参考訳(メタデータ) (2021-09-09T03:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。