Fugu-MT 論文翻訳(概要): Beyond Scale: Small Language Models are Comparable to GPT-4 in Mental Health Understanding

論文の概要: Beyond Scale: Small Language Models are Comparable to GPT-4 in Mental Health Understanding

arxiv url: http://arxiv.org/abs/2507.08031v2
Date: Mon, 14 Jul 2025 01:10:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-15 12:29:47.606831
Title: Beyond Scale: Small Language Models are Comparable to GPT-4 in Mental Health Understanding
Title（参考訳）: スケールを超えて: メンタルヘルス理解における小言語モデルとGPT-4の比較
Authors: Hong Jia, Shiya Fu, Feng Xia, Vassilis Kostakos, Ting Dang,
Abstract要約: Small Language Models (SLM) は、Large Language Models (LLM) のプライバシ保護代替品である。本稿では,現在SLMのメンタルヘルス理解能力について,分類タスクの体系的評価を通じて検討する。我々の研究は、メンタルヘルス理解におけるSLMの可能性を強調し、センシティブなオンラインテキストデータを分析するための効果的なプライバシー保護ツールであることを示す。
参考スコア（独自算出の注目度）: 12.703061322251093
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of Small Language Models (SLMs) as privacy-preserving alternatives for sensitive applications raises a fundamental question about their inherent understanding capabilities compared to Large Language Models (LLMs). This paper investigates the mental health understanding capabilities of current SLMs through systematic evaluation across diverse classification tasks. Employing zero-shot and few-shot learning paradigms, we benchmark their performance against established LLM baselines to elucidate their relative strengths and limitations in this critical domain. We assess five state-of-the-art SLMs (Phi-3, Phi-3.5, Qwen2.5, Llama-3.2, Gemma2) against three LLMs (GPT-4, FLAN-T5-XXL, Alpaca-7B) on six mental health understanding tasks. Our findings reveal that SLMs achieve mean performance within 2\% of LLMs on binary classification tasks (F1 scores of 0.64 vs 0.66 in zero-shot settings), demonstrating notable competence despite orders of magnitude fewer parameters. Both model categories experience similar degradation on multi-class severity tasks (a drop of over 30\%), suggesting that nuanced clinical understanding challenges transcend model scale. Few-shot prompting provides substantial improvements for SLMs (up to 14.6\%), while LLM gains are more variable. Our work highlights the potential of SLMs in mental health understanding, showing they can be effective privacy-preserving tools for analyzing sensitive online text data. In particular, their ability to quickly adapt and specialize with minimal data through few-shot learning positions them as promising candidates for scalable mental health screening tools.
Abstract（参考訳）: 機密性の高いアプリケーションに対するプライバシ保護代替手段としてのSLM(Small Language Models)の出現は、LLM(Large Language Models)と比較して、その固有の理解能力に関する根本的な疑問を提起する。本稿では,多様な分類タスクの体系的評価を通じて,現在のSLMのメンタルヘルス理解能力について検討する。ゼロショットと少数ショットの学習パラダイムを用いて、確立されたLLMベースラインに対して性能をベンチマークし、この臨界領域における相対的な強みと制限を解明する。 6つのメンタルヘルス理解課題において,5つの最先端SLM (Phi-3, Phi-3.5, Qwen2.5, Llama-3.2, Gemma2) と3つのLCM (GPT-4, FLAN-T5-XXL, Alpaca-7B) を比較した。その結果,SLMは2次分類タスクにおいて平均性能を2倍に抑えることができた(F1スコア0.64対0.66)。いずれのモデルカテゴリーも、多クラス重度タスク(30 %以上)で同様の劣化を経験し、臨床的理解の難しさがモデルスケールを超えたことが示唆された。少ないショットプロンプトはSLMの大幅な改善(最大14.6\%)を提供するが、LSMのゲインはより可変である。我々の研究は、メンタルヘルス理解におけるSLMの可能性を強調し、センシティブなオンラインテキストデータを分析するための効果的なプライバシー保護ツールであることを示す。特に、数ショットの学習を通じて、最小限のデータに迅速に適応し、専門化する能力は、スケーラブルなメンタルヘルススクリーニングツールの候補として期待できる。

関連論文リスト

A Systematic Evaluation of Large Language Models for PTSD Severity Estimation: The Role of Contextual Knowledge and Modeling Strategies [24.732452865928053]
大規模言語モデル(LLM)は、精神的な健康状態を評価するために、ゼロショット方式でますます使われている。本研究は,11種類のLLMの性能を評価するために,自然言語の物語と自己報告のPTSD重症度スコアを1,437名に分類した。
論文参考訳（メタデータ） (2026-02-05T18:53:17Z)
Towards Reasoning Ability of Small Language Models [3.732224317444325]
我々は,小言語モデル (SLM) が競争力のある推論性能を実現できることを示す。 14の推論ベンチマークで6つのモデルファミリーから72のSLMを体系的に調査し、ベンチマークし、分析した。我々の発見は、スケーリングが強力な推論を達成する唯一の方法である、という仮定に挑戦する。
論文参考訳（メタデータ） (2025-02-17T08:59:16Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文参考訳（メタデータ） (2024-09-24T07:38:38Z)
Evaluating Large Language Models for Health-Related Text Classification Tasks with Public Social Media Data [3.9459077974367833]
大規模言語モデル(LLM)は、NLPタスクにおいて顕著な成功を収めた。我々は、サポートベクトルマシン(SVM)に基づく教師付き古典機械学習モデルと、RoBERTa、BERTweet、SocBERTに基づく3つの教師付き事前訓練言語モデル(PLM)と、6つのテキスト分類タスクで2つのLLMベースの分類器(GPT3.5、GPT4)をベンチマークした。 LLM(GPT-4)を用いた軽量教師付き分類モデルの訓練には,比較的小さな人手によるデータ拡張(GPT-4)が有効であることを示す総合的な実験を行った。
論文参考訳（メタデータ） (2024-03-27T22:05:10Z)
Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data [42.965788205842465]
本稿では,様々なメンタルヘルス予測タスクにおける多言語モデル(LLM)の包括的評価について述べる。ゼロショットプロンプト、少数ショットプロンプト、微調整を含む実験を行う。我々の最も精巧なモデルであるMental-AlpacaとMental-FLAN-T5は、バランスの取れた精度でGPT-3.5を10.9%上回り、GPT-4(250倍、150倍)を4.8%上回りました。
論文参考訳（メタデータ） (2023-07-26T06:00:50Z)
Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文参考訳（メタデータ） (2023-06-22T17:31:44Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。