Fugu-MT 論文翻訳(概要): A Comprehensive Evaluation of Large Language Models on Mental Illnesses

論文の概要: A Comprehensive Evaluation of Large Language Models on Mental Illnesses

arxiv url: http://arxiv.org/abs/2409.15687v1
Date: Tue, 24 Sep 2024 02:58:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 09:11:12.516435
Title: A Comprehensive Evaluation of Large Language Models on Mental Illnesses
Title（参考訳）: 精神疾患における大規模言語モデルの包括的評価
Authors: Abdelrahman Hanafi, Mohammed Saad, Noureldin Zahran, Radwa J. Hanafy, Mohammed E. Fouda,
Abstract要約: GPT-4とLlama 3はバイナリ障害検出において優れた性能を示し、特定のデータセットで最大85%の精度に達した。素早いエンジニアリングはモデル性能を高める上で重要な役割を担った有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。
参考スコア（独自算出の注目度）: 0.8458496687170665
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have shown promise in various domains, including healthcare. In this study, we conduct a comprehensive evaluation of LLMs in the context of mental health tasks using social media data. We explore the zero-shot (ZS) and few-shot (FS) capabilities of various LLMs, including GPT-4, Llama 3, Gemini, and others, on tasks such as binary disorder detection, disorder severity evaluation, and psychiatric knowledge assessment. Our evaluation involved 33 models testing 9 main prompt templates across the tasks. Key findings revealed that models like GPT-4 and Llama 3 exhibited superior performance in binary disorder detection, with accuracies reaching up to 85% on certain datasets. Moreover, prompt engineering played a crucial role in enhancing model performance. Notably, the Mixtral 8x22b model showed an improvement of over 20%, while Gemma 7b experienced a similar boost in performance. In the task of disorder severity evaluation, we observed that FS learning significantly improved the model's accuracy, highlighting the importance of contextual examples in complex assessments. Notably, the Phi-3-mini model exhibited a substantial increase in performance, with balanced accuracy improving by over 6.80% and mean average error dropping by nearly 1.3 when moving from ZS to FS learning. In the psychiatric knowledge task, recent models generally outperformed older, larger counterparts, with the Llama 3.1 405b achieving an accuracy of 91.2%. Despite promising results, our analysis identified several challenges, including variability in performance across datasets and the need for careful prompt engineering. Furthermore, the ethical guards imposed by many LLM providers hamper the ability to accurately evaluate their performance, due to tendency to not respond to potentially sensitive queries.
Abstract（参考訳）: 大規模言語モデルは、医療を含む様々な領域で有望であることを示している。本研究では,ソーシャルメディアデータを用いたメンタルヘルスタスクの文脈におけるLCMの包括的評価を行う。 GPT-4, Llama 3, Gemini など様々な LLM のゼロショット(ZS) と少数ショット(FS) 機能について, 2次障害検出, 障害重症度評価, 精神科的知識評価などの課題について検討した。評価では,タスクにまたがる9つの主要なプロンプトテンプレートをテストする33のモデルについて検討した。 GPT-4やLlama 3のようなモデルでは、バイナリ障害の検出において優れたパフォーマンスを示し、特定のデータセットで最大85%の精度が達成された。さらに、迅速な工学がモデル性能の向上に重要な役割を果たした。特にMixtral 8x22bモデルでは20%以上の改善が見られ、Gemma 7bでは同様の性能が向上した。障害重大度評価の課題では、FS学習がモデルの精度を大幅に向上させ、複雑な評価における文脈例の重要性を強調した。特に、Phi-3-miniモデルの性能は大幅に向上し、ZSからFS学習に移行すると精度は6.80%以上向上し、平均誤差は1.3近く低下した。精神医学的知識タスクでは、最近のモデルは一般的により古いより大きなモデルよりも優れており、Llama 3.1 405bは91.2%の精度を達成している。有望な結果にもかかわらず、我々の分析では、データセット間のパフォーマンスのばらつきや、注意深いプロンプトエンジニアリングの必要性など、いくつかの課題を特定した。さらに、多くのLLMプロバイダが課している倫理的保護は、潜在的にセンシティブなクエリに応答しない傾向があるため、そのパフォーマンスを正確に評価する能力を妨げている。

関連論文リスト

Optimizing Large Language Models for Detecting Symptoms of Comorbid Depression or Anxiety in Chronic Diseases: Insights from Patient Messages [4.419296403133379]
糖尿病患者は、うつ病や不安のリスクが高く、管理を複雑にしている。本研究は,患者メッセージからこれらの症状を検出するための言語モデル(LLM)の性能を評価した。
論文参考訳（メタデータ） (2025-03-14T13:27:35Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-03-06T15:36:06Z)
(WhyPHI) Fine-Tuning PHI-3 for Multiple-Choice Question Answering: Methodology, Results, and Challenges [0.0]
この研究は、マイクロソフトのPHI-3citeAbdin2024(コンパクトで効率的で複数の質問に答えるLLM)の可能性を探るものである。 PHI-3.5のMCQ処理は4.68から2.27に減少し、精度は62%から90.8%に向上した。
論文参考訳（メタデータ） (2025-01-03T00:56:46Z)
Self-Generated Critiques Boost Reward Modeling for Language Models [57.60881438647227]
Critic-RMは、余分な監督なしに自己生成した批評を使って報酬モデルを改善するフレームワークである。実験の結果、Critic-RMは標準報酬モデルやLLM審査員と比較して報酬モデリングの精度を3.7%-7.3%改善していることがわかった。
論文参考訳（メタデータ） (2024-11-25T18:28:26Z)
Effective Predictive Modeling for Emergency Department Visits and Evaluating Exogenous Variables Impact: Using Explainable Meta-learning Gradient Boosting [0.18846515534317265]
本稿では,毎日のED訪問を正確に予測するためのメタラーニンググラディエント・ブースター(Meta-ED)手法を提案する。提案したMeta-EDは,4つの基礎学習者からなる。Catboost,Random Forest,Extra Tree,LightGBoostは信頼性の高いトップレベルの学習者,Multi-Layer Perceptron(MLP)である。そこで本研究では,メタEDモデルの有効性を,23モデルを含む広範囲な比較分析により評価した。
論文参考訳（メタデータ） (2024-11-18T04:23:20Z)
The Surprising Effectiveness of Test-Time Training for Abstract Reasoning [64.36534512742736]
モデル推論能力向上のためのメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。 TTTはARCタスクのパフォーマンスを大幅に改善し、ベースとなる微調整モデルと比較して最大6倍の精度向上を実現した。本研究は,ニューラルネットワークモデルにおける抽象的推論改善の道筋として,明示的な記号探索が唯一の道ではないことを示唆している。
論文参考訳（メタデータ） (2024-11-11T18:59:45Z)
Vision-Language and Large Language Model Performance in Gastroenterology: GPT, Claude, Llama, Phi, Mistral, Gemma, and Quantized Models [0.06555599394344236]
本研究では,大言語モデル (LLMs) と視覚言語モデル (VLMs) の胃腸科学における医学的推論性能を評価する。我々は,300の胃腸科検査式多票質問紙を使用し,そのうち138は画像を含んでいた。
論文参考訳（メタデータ） (2024-08-25T14:50:47Z)
Enhanced Prediction of Ventilator-Associated Pneumonia in Patients with Traumatic Brain Injury Using Advanced Machine Learning Techniques [0.0]
外傷性脳損傷(TBI)患者の呼吸器関連肺炎(VAP)は重大な死亡リスクをもたらす。 TBI患者のVAPのタイムリーな検出と予後は、患者の予後を改善し、医療資源の負担を軽減するために重要である。我々はMIMIC-IIIデータベースを用いて6つの機械学習モデルを実装した。
論文参考訳（メタデータ） (2024-08-02T09:44:18Z)
AgEval: A Benchmark for Zero-Shot and Few-Shot Plant Stress Phenotyping with Multimodal LLMs [19.7240633020344]
AgEvalは12種類の植物ストレス表現タスクからなるベンチマークである。本研究は、最先端モデルのゼロショットおよび少数ショットのインコンテキスト学習性能を評価する。
論文参考訳（メタデータ） (2024-07-29T00:39:51Z)
ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models [43.895478182631116]
ツール拡張大型言語モデル(LLM)は、現実世界のアプリケーションに急速に統合されている。この課題に対処するために、包括的な診断ベンチマークであるToolBHを導入する。ツールセットの特徴に基づいた,必要なツールや潜在的なツール,限定的な機能ツールの3つのシナリオについて検討する。結果は、ToolBHベンチマークで提示された重要な課題を示している。
論文参考訳（メタデータ） (2024-06-28T16:03:30Z)
Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文参考訳（メタデータ） (2023-10-02T09:47:40Z)
A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文参考訳（メタデータ） (2023-07-25T17:02:38Z)
Let's Verify Step by Step [73.58107073356732]
プロセスの監督は,課題を解決するためのトレーニングモデルにおいて,結果の監督を著しく上回っていることを示す。我々のモデルは、MATHテストセットの代表部分集合から78%の問題を解く。また、最高の報酬モデルをトレーニングするために使われる80,000段階の人間フィードバックラベルの完全なデータセットであるPRM800Kをリリースしています。
論文参考訳（メタデータ） (2023-05-31T17:24:00Z)
How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks [65.7949334650854]
GPT-3.5モデルは様々な自然言語処理(NLP)タスクで顕著な性能を示した。しかし、オープン世界の様々な複雑さに対処する堅牢性や能力はまだ検討されていない。 GPT-3.5は、不安定性、迅速な感度、数値感度など、いくつかの具体的な堅牢性課題に直面している。
論文参考訳（メタデータ） (2023-03-01T07:39:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。