論文の概要: WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions
- arxiv url: http://arxiv.org/abs/2406.12058v4
- Date: Mon, 07 Oct 2024 14:08:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:00:24.909830
- Title: WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions
- Title(参考訳): WellDunn: ウェルネス次元の同定における言語モデルと大規模言語モデルのロバスト性と説明可能性について
- Authors: Seyedali Mohammadi, Edward Raff, Jinendra Malekar, Vedant Palit, Francis Ferraro, Manas Gaur,
- Abstract要約: 言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
- 参考スコア(独自算出の注目度): 46.60244609728416
- License:
- Abstract: Language Models (LMs) are being proposed for mental health applications where the heightened risk of adverse outcomes means predictive performance may not be a sufficient litmus test of a model's utility in clinical practice. A model that can be trusted for practice should have a correspondence between explanation and clinical determination, yet no prior research has examined the attention fidelity of these models and their effect on ground truth explanations. We introduce an evaluation design that focuses on the robustness and explainability of LMs in identifying Wellness Dimensions (WDs). We focus on two existing mental health and well-being datasets: (a) Multi-label Classification-based MultiWD, and (b) WellXplain for evaluating attention mechanism veracity against expert-labeled explanations. The labels are based on Halbert Dunn's theory of wellness, which gives grounding to our evaluation. We reveal four surprising results about LMs/LLMs: (1) Despite their human-like capabilities, GPT-3.5/4 lag behind RoBERTa, and MedAlpaca, a fine-tuned LLM on WellXplain fails to deliver any remarkable improvements in performance or explanations. (2) Re-examining LMs' predictions based on a confidence-oriented loss function reveals a significant performance drop. (3) Across all LMs/LLMs, the alignment between attention and explanations remains low, with LLMs scoring a dismal 0.0. (4) Most mental health-specific LMs/LLMs overlook domain-specific knowledge and undervalue explanations, causing these discrepancies. This study highlights the need for further research into their consistency and explanations in mental health and well-being.
- Abstract(参考訳): 言語モデル (LM) は, 予後のリスクが高まれば, 臨床実践において, モデルの有用性の十分なリトマステストにはならない可能性がある, メンタルヘルスの分野で提案されている。
実践に信頼できるモデルは、説明と臨床的決定の対応性を持つべきであるが、これらのモデルの注意力と、それらの基礎的真理的説明への影響について、事前の研究は行われていない。
本稿では,ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
既存のメンタルヘルスと幸福なデータセットの2つに注目します。
(a)多ラベル分類に基づくMultiWD及び
b) 専門家による説明に対する注意機構の妥当性を評価するためのWellXplain
ラベルはハルベルト・ダンのウェルネスの理論に基づいている。
1)人間のような能力にもかかわらず、RoBERTaに遅れてGPT-3.5/4ラグ、そしてWellXplainで微調整されたLLMであるMedAlpacaは、パフォーマンスや説明が著しく改善されない。
2)信頼性指向の損失関数に基づくLMの予測を再検討した結果,性能低下が顕著であった。
(3) すべてのLM/LLMにおいて, 注意と説明の整合性は低く, LLMは0.0。
(4)ほとんどの精神保健専門のLM/LLMは、ドメイン固有の知識や価値の低い説明を見落とし、これらの相違の原因となった。
この研究は、精神保健と健康における一貫性と説明について、さらなる研究の必要性を強調している。
関連論文リスト
- Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。
本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。
まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。
第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文 参考訳(メタデータ) (2024-10-28T16:38:20Z) - MentalGLM Series: Explainable Large Language Models for Mental Health Analysis on Chinese Social Media [31.752563319585196]
ブラックボックスモデルはタスクを切り替えるときに柔軟性がなく、その結果は説明に欠ける。
大きな言語モデル(LLM)の台頭とともに、その柔軟性はこの分野に新しいアプローチを導入した。
本稿では,9Kサンプルからなる中国初のマルチタスク・ソーシャル・メディア解釈型メンタルヘルス・インストラクション・データセットを提案する。
また,中国ソーシャルメディアをターゲットとしたメンタルヘルス分析を目的とした,初のオープンソースLCMであるMentalGLMシリーズモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T09:29:27Z) - SemioLLM: Assessing Large Language Models for Semiological Analysis in Epilepsy Research [45.2233252981348]
大規模言語モデルは、一般的な医学的知識をエンコードする能力において有望な結果を示している。
内科的知識を活用しててててんかんの診断を行う技術について検討した。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - MentaLLaMA: Interpretable Mental Health Analysis on Social Media with
Large Language Models [28.62967557368565]
ソーシャルメディア上に,最初のマルチタスクおよびマルチソース解釈可能なメンタルヘルスインストラクションデータセットを構築した。
専門家が作成した数発のプロンプトとラベルを収集し,ChatGPTをプロンプトし,その応答から説明を得る。
IMHIデータセットとLLaMA2ファンデーションモデルに基づいて、メンタルヘルス分析のための最初のオープンソースLLMシリーズであるMentalLLaMAを訓練する。
論文 参考訳(メタデータ) (2023-09-24T06:46:08Z) - Navigating the Grey Area: How Expressions of Uncertainty and
Overconfidence Affect Language Models [74.07684768317705]
LMはプロンプトにおける確実性のマーカーに非常に敏感であり、アクーは80%以上変化している。
その結果,高い確実性の表現は低い表現に比べて精度が低下し,事実動詞が性能を損なうのに対して,明らかな表現はパフォーマンスに寄与することがわかった。
これらの関連性は、LMが真に不確実性を反映するのではなく、観察された言語の使用に基づいていることを示唆している。
論文 参考訳(メタデータ) (2023-02-26T23:46:29Z) - Explainability of Traditional and Deep Learning Models on Longitudinal
Healthcare Records [0.0]
モデルと様々な説明可能性法の比較は十分に研究されていないため、説明可能性の厳密な評価は欠落することが多い。
我々の研究は、伝統的(XGBoost)と深層学習(LSTM with Attention)のモデル間の、グローバルおよび個人レベルの説明可能性のパフォーマンスを初めて評価した1つです。
論文 参考訳(メタデータ) (2022-11-22T04:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。